Gemini 3.1 Pro 출시 분석: 추론 성능 2배 도약과 Google Antigravity 통합

게시 2026/02/23

By BLUEBUG

23 분읽는 시간

동영상: 제미니 3.1 프로: 아무도 예상하지 못했던 모델
동영상 게시일: 2026-02-20
출처: Google DeepMind 공식 발표, VentureBeat, DataCamp, SmartScope 등

1. 개요: 예상보다 빠른 업그레이드의 등장

2025년 11월 Gemini 3 Pro를 출시한 지 불과 3개월 만인 2026년 2월 19일, Google DeepMind는 Gemini 3.1 Pro를 프리뷰(Preview) 형태로 공개했다. 이번 릴리스는 기존 Gemini 시리즈가 중간 업데이트 시 사용하던 “.5” 버전 명명 체계(예: Gemini 2.5)를 처음으로 버리고 “.1” 체계를 채택한 첫 사례로, 이는 단순한 기능 확장이 아니라 핵심 추론 능력 자체를 집중적으로 고도화했다는 것을 의미한다.

Google이 이 모델을 “단순한 답변으로는 충분하지 않은 작업을 위해 설계된 모델”이라고 설명할 만큼, Gemini 3.1 Pro의 핵심 가치는 복잡한 문제에 대한 심층적인 추론 능력에 있다. 출시 직후부터 개발자, 기업, 일반 소비자 등 전 채널에 걸친 광범위한 배포가 시작됐으며, Google AI Pro 및 Ultra 구독자는 Gemini 앱과 NotebookLM에서 우선적으로 접근할 수 있다.

2. 핵심 성과: 벤치마크로 본 성능 도약

ARC-AGI-2: 추론 능력의 2배 이상 향상

이번 출시에서 가장 눈에 띄는 성과는 ARC-AGI-2(Abstraction and Reasoning Corpus for Artificial General Intelligence 2) 벤치마크에서의 압도적인 점수 상승이다. ARC-AGI-2는 단순 암기나 패턴 학습으로는 해결할 수 없는 완전히 새로운 논리 패턴 문제를 풀어내는 능력을 측정하는 지표로, AI 추론 능력의 실질적인 발전을 가늠하는 지표로 업계에서 높이 평가된다.

Gemini 3 Pro가 31.1%를 기록했던 이 벤치마크에서 Gemini 3.1 Pro는 77.1%를 달성했다. 이는 단순히 2배가 넘는 수치일 뿐 아니라, 프론티어 모델 중 단일 세대 만에 이룬 가장 큰 추론 성능 도약으로 기록되고 있다. 비교 대상인 Claude Opus 4.6의 68.8%, Claude Sonnet 4.6의 58.3%, OpenAI GPT-5.2의 52.9%를 모두 크게 앞선다.

Humanity’s Last Exam: 상위권 경쟁

수백 명의 분야별 전문가들이 설계한 최난이도 지식·추론 테스트인 Humanity’s Last Exam(HLE)에서 Gemini 3.1 Pro는 외부 도구 없이 44.4%를 기록했다. 전 버전인 Gemini 3 Pro(37.5%)를 7%포인트 앞서며, Claude Opus 4.6(40.0%)과 GPT-5.2(34.5%)도 넘어섰다.

과학·코딩 전문성

GPQA Diamond(박사급 물리·화학·생물 문제) 벤치마크에서는 94.3%를 달성해 모든 경쟁 모델 가운데 최고 수준을 기록했다. 코딩 분야에서는 LiveCodeBench Pro 기준 Elo 2,887점을 기록해 GPT-5.2(2,393점)와 Gemini 3 Pro(2,439점)를 크게 상회했으며, SWE-Bench Verified에서는 80.6%로 실무 수준의 소프트웨어 엔지니어링 작업에서도 높은 신뢰성을 입증했다.

에이전틱(Agentic) 업무 능력을 평가하는 MCP Atlas에서는 69.2%로 전체 비교 모델 중 최고 점수를 기록했으며, 다국어·멀티모달 이해를 평가하는 MMMLU에서도 92.6%를 달성했다.

벤치마크의 한계: 균형 잡힌 시각

다만 모든 영역에서 1위를 차지한 것은 아니다. SmartScope와 DataCamp 등의 독립적 분석에 따르면, 기업용 실무 작업(금융, 법률 등)을 평가하는 GDPval-AA에서는 Claude Sonnet 4.6(1,633점), Claude Opus 4.6(1,606점)에 비해 Gemini 3.1 Pro(1,317점)가 약 300점 가까이 낮다. 또한 LM Arena 사용자 투표 기반 랭킹에서는 Claude Opus 4.6이 여전히 텍스트 영역 1위를 유지하고 있다. 즉, 추론과 과학 영역에서는 Gemini가 앞서지만, 실제 엔터프라이즈 문서 작업에서는 Claude 모델이 여전히 강점을 보인다는 것이다.

3. 추론 능력 도약의 배경: 에이전틱 RL과 3단계 사고 시스템

에이전틱 강화학습(Agentic RL)의 핵심 역할

이번 성능 도약의 핵심 요인은 에이전틱 강화학습(RL)의 본격 적용이다. 흥미롭게도 이 기술은 이미 Gemini 3 Flash에 먼저 도입된 바 있다. Gemini 팀의 Kish Anand는 “Flash가 Pro를 일부 벤치마크에서 앞설 수 있었던 이유가 바로 RL”이라고 설명한 바 있는데, 에이전틱 RL 연구 성과가 3 Pro 출시 전에 완성되지 않아 Flash에 먼저 적용됐고, 이번 3.1 Pro에서야 Pro 모델에도 반영된 것이다. 이는 Google의 연구 개발 파이프라인에서 Flash와 Pro가 서로 다른 실험 주기를 거치며 기술이 교차 이식되고 있음을 보여준다.

또한 Google DeepMind의 공식 블로그는 Gemini 3.1 Pro가 Deep Think 시리즈에서 발전시킨 핵심 추론 기술을 기반으로 한다고 명시하고 있다. 즉, Deep Think의 뛰어난 추론 능력을 일반 사용자도 일상적으로 활용할 수 있도록 민주화한 버전이 3.1 Pro라 볼 수 있다.

3단계 사고 조절 시스템

Gemini 3.1 Pro의 또 다른 구조적 혁신은 3단계 사고 수준(Low, Medium, High) 조절 기능이다. 이전 버전들은 낮음/높음의 이분법적 모드로 운영됐지만, 3.1 Pro는 중간 수준(Medium)을 새롭게 도입해 응답 속도와 추론 깊이 사이의 균형을 개발자가 직접 조율할 수 있게 했다. 이는 단순 질의에는 빠른 응답을, 복잡한 문제에는 심층 추론을 각각 적용하는 실용적인 유연성을 제공한다.

4. Google Antigravity와 AI Studio 통합: 에이전트 개발의 새 패러다임

Google Antigravity란 무엇인가

Gemini 3과 함께 공개된 Google Antigravity는 단순한 코드 에디터를 넘어서는 에이전트 우선(Agent-First) 개발 플랫폼이다. Antigravity의 핵심 철학은 AI가 단순히 코드를 작성하는 도구가 아니라, 계획-실행-검증-반복의 전체 개발 사이클을 자율적으로 수행하는 행위자라는 데 있다. 개발자의 역할은 코드를 직접 타이핑하는 “작성자”에서 에이전트에게 방향을 제시하는 “아키텍트” 또는 “미션 컨트롤러”로 전환된다.

이 플랫폼은 파일 시스템과 터미널에 직접 접근하는 에이전트, 브라우저를 제어하며 UI를 시각적으로 검증하는 브라우저 서브에이전트, 그리고 Google Docs 스타일의 댓글로 에이전트 결과물에 실시간 피드백을 줄 수 있는 인터랙티브 피드백 루프를 통합적으로 제공한다. 초기 사용자 리뷰에 따르면 Cursor 같은 기존 AI 코딩 도구보다 훨씬 높은 자율성을 보여주지만, 에이전트 실행 시 자원 소모가 크다는 점이 단점으로 지적된다.

AI Studio Build 기능과의 통합

이번 출시의 또 다른 중요한 측면은 Google AI Studio 내에 Antigravity 에이전트를 직접 통합한 “Build” 기능이다. 이 기능은 Vibe Coding을 위한 플랫폼으로 마케팅되고 있으며, 사용자는 AI Studio에서 바로 애플리케이션을 빌드하고 샌드박스 환경에서 실행할 수 있다. React, Next.js, Angular 등 다양한 기술 스택을 선택할 수 있으며, GitHub 연동과 배포(퍼블리싱)까지 지원한다.

AI Studio의 역할 분담은 명확하다. 초기 설계 및 프로토타이핑 단계에는 AI Studio가, 복잡한 에이전트 워크플로우를 통한 실제 개발 및 실행 단계에는 Antigravity가 각각 특화되어 있으며, 두 플랫폼 간의 원활한 핸드오프가 이루어진다. 이는 Google이 AI 개발 생태계에서 프로세스 단계별 수직 통합을 구현하려는 의도로 읽힌다.

5. 가격과 토큰 효율성: 비용 대비 성능 혁신

동일 가격, 대폭 향상된 성능

Gemini 3.1 Pro의 또 다른 강점은 전 버전 대비 가격 변동 없이 성능이 대폭 향상됐다는 점이다. API 기준 입력 200K 토큰 이하 기준 $2.00/1M 토큰, 출력 $12.00/1M 토큰으로 Gemini 3 Pro와 동일한 가격 구조를 유지하고 있다. 이는 Claude Opus 4.6 대비 절반 이하의 비용으로 비교 가능한 추론 성능을 제공한다는 점에서 비용 대비 성능(Price-Performance ratio) 측면에서 매우 경쟁력 있는 포지셔닝이다.

토큰 효율성 개선

토큰 효율성 측면에서도 주목할 만한 개선이 이루어졌다. 최근 Anthropic의 Claude Sonnet 4.6이 이전 버전 대비 토큰 소모량이 크게 늘었다는 점이 개발자들 사이에서 불만으로 제기되고 있는 가운데, Gemini 3.1 Pro는 전 버전 대비 약 200만 토큰 추가 소모만으로 Artificial Analysis 인텔리전스 인덱스 1위를 달성했다는 점이 강조된다. JetBrains의 AI 디렉터 Vladislav Tankov는 이 모델이 이전 버전보다 “강하고, 빠르며, 출력 토큰 수도 더 적게 사용한다”고 평가했다.

6. 멀티모달 능력: Google의 전통적 강점 유지

Gemini 모델 시리즈가 역사적으로 강점을 보여온 멀티모달 추론 영역에서 3.1 Pro도 그 기조를 이어간다. 텍스트, 이미지, 음성, 동영상, 코드 등 다양한 입력 형식을 단일 모델에서 네이티브로 처리할 수 있으며, 1백만 토큰의 컨텍스트 윈도우(최대 64K 토큰 출력)를 통해 방대한 코드베이스나 장문의 문서를 단일 패스로 처리하는 것이 가능하다.

VideoMME 벤치마크에서 84.8%를 기록하는 등 동영상 이해 능력이 특히 두드러지며, 멀티모달 이해를 평가하는 MMMLU에서 92.6%를 달성했다. 이는 이미지나 동영상으로부터 정보를 시각적으로 추출하고 이를 코드 생성이나 복잡한 추론과 결합하는 새로운 개발 워크플로우를 가능케 한다.

7. 래퍼(Wrapper)와 스캐폴딩의 중요성 증가

Gemini 3.1 Pro 출시는 현재 AI 업계의 중요한 트렌드를 다시 한번 확인시켜 준다. 기반 모델의 원시 지능만으로는 부족하며, 그 모델을 감싸는 하네스(harness)와 스캐폴딩(scaffolding)이 점점 더 중요해지고 있다는 것이다.

대표적인 사례가 Gemini Deep Think로, 순수 기반 모델과 Deep Think 버전 사이에는 상당한 성능 차이가 존재한다. 더 극적인 예시는 Alethia인데, Deep Think 위에 구축된 생성-검증-수정(Generator-Verifier-Revisor) 루프로 구성된 이 시스템은 추론 작업에서 Deep Think 자체를 능가하는 결과를 보여준다. 이는 모델 자체의 능력과 함께, 그 모델을 어떻게 활용하는 시스템을 설계하느냐가 최종 성과를 결정한다는 원칙을 잘 보여준다.

8. Google의 전략: 범용 모델과 코스트-퍼포먼스 프론티어

범용성과 전문성 사이의 선택

현재 Anthropic(Claude)이나 OpenAI가 최근 몇 세대에 걸쳐 코딩 성능 향상에 집중적으로 투자해온 것과 달리, Google은 Gemini 3.1 Pro를 포함한 전반적인 전략에서 범용성을 중심에 두고 있다. 과학적 추론, 멀티모달 처리, 장문 컨텍스트, 에이전틱 작업 등 다양한 영역을 균형 있게 강화하는 방향이다. 물론 코딩 특화 부문에서는 Gemini 3 Flash가 일부 흥미로운 벤치마크에서 Gemini 3 Pro를 앞서는 등 에이전틱 RL의 코딩 특화 적용도 병행되고 있다.

코스트-퍼포먼스 프론티어 사수

Google의 또 다른 일관된 전략은 “포테이토 프론티어(Potato Frontier)”라고도 불리는 성능 대비 비용 최적화다. 단순히 가장 강력한 모델을 만드는 것이 아니라, 합리적인 비용으로 높은 지능을 제공하는 지점을 공략한다는 것이다. Gemini 3.1 Pro가 전 버전과 동일한 가격을 유지하면서도 성능을 대폭 향상시킨 것은 이 전략의 직접적인 표현이다.

실제 사용자 기반과 수익

벤치마크 경쟁 이면에는 중요한 사업적 현실이 있다. 2025년 4분기 기준 Gemini 앱의 월간 활성 사용자는 약 7억 5천만 명으로, 약 8억 명인 ChatGPT에 근접한 수준이다. 더 중요한 것은 Gemini 모델이 Google 검색의 AI 모드를 구동하며 실질적인 수익을 창출하고 있다는 점이다. 이는 단순히 AI 리더십을 다투는 것이 아니라, 기존 Google 비즈니스 생태계에 AI를 깊이 통합해 수익화하는 전략임을 보여준다.

9. 현재 가용성 및 접근 방법

Gemini 3.1 Pro는 현재 프리뷰 상태로 다음 채널을 통해 이용 가능하다.

개발자를 위해서는 Google AI Studio(API), Google Antigravity, Gemini CLI, Android Studio에서 접근할 수 있으며, 기업 고객은 Vertex AI와 Gemini Enterprise를 통해 이용할 수 있다. 일반 소비자의 경우 Google AI Pro 및 Ultra 구독자는 Gemini 앱과 NotebookLM에서 상위 한도의 접근이 가능하다.

Google은 에이전틱 워크플로우 등 추가적인 개선을 지속한 후 정식 GA(General Availability) 출시를 예정하고 있다.

10. 시사점: 2026년 AI 경쟁 구도 변화

2026년 2월은 유독 치열한 AI 모델 경쟁의 달로 기록될 것이다. Anthropic이 Claude Opus 4.6와 Sonnet 4.6을 연달아 출시한 직후 Google이 Gemini 3.1 Pro로 맞불을 놓은 양상이 펼쳐졌다. 이번 경쟁에서 드러난 몇 가지 핵심 시사점을 정리하면 다음과 같다.

추론 능력이 새로운 경쟁의 축으로 부상했다. ARC-AGI-2처럼 암기가 아닌 순수한 새로운 패턴 인식 능력을 측정하는 벤치마크가 주목받는다는 것은, AI 발전의 방향이 단순 지식 습득에서 진정한 추론과 문제 해결 능력으로 이동하고 있음을 의미한다.

동시에, 사용 목적에 따라 모델 선택이 달라진다. 과학적 추론, 멀티모달 처리, 비용 효율성을 중시한다면 Gemini 3.1 Pro가 유리하지만, 금융·법률 등 엔터프라이즈 실무 작업이나 실제 소프트웨어 엔지니어링(SWE-Bench) 분야에서는 Claude Opus 4.6가 여전히 강세를 보인다.

가장 의미 있는 변화는 개발 패러다임 자체의 전환이다. Antigravity와 AI Studio Build 기능의 통합이 보여주듯, 개발자는 이제 단순히 AI 도구를 사용하는 것이 아니라 AI 에이전트를 지휘하는 아키텍트로 역할이 변화하고 있다. 이 흐름에서 “어떤 모델이 가장 좋은가”라는 질문보다 “어떻게 시스템을 설계할 것인가”라는 질문이 점점 더 중요해지고 있다.

참고 자료: Google DeepMind 공식 블로그, Gemini 3.1 Pro 모델 카드, VentureBeat, DataCamp, SmartScope, Interesting Engineering, Google One 구독 페이지

작성 일자: 2026-02-23

AI, Model

AI Gemini Antigravity deep-mind ai-studio agentic-RL Claude.write