작년까지 AI 얘기 나오면 ChatGPT 일색이었잖아요. 구글이 얼마나 조급했겠어요. 검색 1위 자리 뺏길 수도 있는 상황이니. 그래서 밀어붙인 게 제미나이 시리즈인데, 올해 11월 나온 3버전이 판을 좀 뒤집어놨습니다.
핵심은 Deep Think라는 녀석이에요.

뭐가 다르냐고요
원래 AI한테 뭐 물어보면 거의 즉답이 튀어나오죠. 빠른 건 좋은데 좀 얕아요. 어려운 거 던지면 대충 얼버무리거나 아예 헛소리할 때도 많고.
Deep Think는 좀 달라요. 바로 답 안 내고 속으로 이것저것 굴려봅니다. 바둑 둘 때 다음 수 놓기 전에 머릿속으로 몇 수 앞 계산하잖아요. 그거랑 비슷해요. A로 가면 어떻게 되나, B는, C는. 여러 갈래 동시에 탐색하다가 안 되겠다 싶은 건 빨리 접고, 될 것 같은 쪽으로 더 파고드는 식이에요.
느리긴 한데 맞추는 확률이 확 올라갑니다.
성적표를 보면
AI 실력 재는 시험들이 있거든요. ARC-AGI-2라는 건 외워서 절대 못 풀어요. 난생처음 보는 도형 보고 규칙을 찾아내야 하는데, 다른 애들이 15~20% 선에서 다 막혔어요.
Deep Think가 45% 찍었습니다. 두 배 넘게 뛴 거죠. 연구하는 사람들이 꽤 놀랐다더라고요.
박사급 과학 문제 모아놓은 시험에선 94% 가까이 맞았고. 전문가들보다 높은 점수예요.
멀티모달도 알아두세요
제미나이 3 기본기 얘긴데, 글자만 읽는 게 아니에요. 사진, 영상, 음성 다 알아듣습니다.
냉장고 찍어서 “뭐 해먹지?” 하면 재료 보고 레시피 알려주고. 회의 녹음 던지면 요약해주고. 손으로 휘갈겨 그린 앱 화면 올리면 코드로 바꿔주기도 해요.
기억력도 좋아졌어요. 책 수백 권 분량 한꺼번에 읽고 대화 가능합니다. 긴 계약서 통째로 올려놔도 앞에서 뭐 물어봤는지 안 까먹는다는 거죠.
어디다 쓰냐면
법무팀에서 M&A 검토한다고 쳐요. 실사 자료 수천 페이지입니다. 다 읽고 위험한 조항 찾아내려면 며칠이에요. Deep Think한테 넘기면 조항들 관계까지 따져서 문제 될 만한 거 콕 집어줍니다.
개발하는 사람들은 원하는 앱 동작을 영상으로 찍어 보여주면 분석해서 코드 짜주니까 편하고. 연구하는 분들은 증명 과정 검토받거나 실험 설계 점검받을 때 쓰고요.
근데 돈이 문제
좋은 건 알겠는데 무료 아니에요.
Deep Think가 속으로 이것저것 시뮬레이션 돌린다고 했잖아요. 그 생각하는 과정 전부 과금입니다. 밖으로 나온 답변은 한 줄인데 속에선 수만 줄 돌린 거예요. 복잡한 문제 하나에 일반 모드 대비 수십 배, 심하면 백 배 가까이 청구될 수 있어요.
아무 데나 쓰면 안 되고 진짜 중요한 판단할 때만 꺼내야 합니다.
완벽하진 않아요
솔직히 말하면 쓸데없이 깊이 생각하다 산으로 갈 때 있어요. 별거 아닌 질문인데 혼자 복잡하게 꼬아서 엉뚱한 답 내놓기도 하고. 자기가 낸 답에 너무 확신이 강해서 틀렸다고 해도 안 받아들이는 경우도 있고요.
서버도 불안정해요. 연산량이 장난 아니라 사람 몰리면 에러 자주 뜬다고 합니다.
그래서 결론은
Gemini 3 Deep Think는 바로 답 내지 않고 속으로 여러 경우 따져보는 방식으로 추론 시험에서 기존 AI들 압도하는 성적 보여줬어요. 다만 비용이 만만찮고 불안정한 부분 있어서 당장 생활에서 쓰긴 어렵고, 전문 분야에서 먼저 쓰이겠죠. 앞으로 어떻게 발전하는지 지켜볼 만합니다.