에이전트 역할/작업별 AI 모델 추천 가이드
Claude, Gemini, OpenAI 완전 비교 (2026년 1월 기준)
목차
모델 개요 및 특성
Claude 모델 라인업 (Anthropic)
Claude Opus 4.5
출시: 2025년 11월
가격: $15/M 입력, $75/M 출력
컨텍스트: 200K 토큰
특징:
- 최고 수준의 추론 능력
- ARC-AGI-2에서 37.6% (Sonnet의 3배)
- 복잡한 문제 해결 및 창의적 솔루션 발견에 탁월
- 멀티 에이전트 오케스트레이션 능력
- Effort 파라미터로 추론 깊이 조절 가능
강점:
- 전략적 사고 및 계획
- 복잡한 비즈니스 로직
- 아키텍처 설계
- 코드 리뷰 (미묘한 버그 탐지)
- 깊이 있는 리서치
약점:
- 느린 응답 속도
- 높은 비용
- 간단한 작업에는 과잉
Claude Sonnet 4.5
출시: 2025년 9월
가격: $3/M 입력, $15/M 출력
컨텍스트: 200K (베타 1M)
특징:
- “세계 최고의 코딩 모델”
- “에이전트를 위한 최고의 모델”
- SWE-bench Verified: 77.2%
- Opus 4.1과 거의 동일한 성능, 훨씬 저렴
- 프론트엔드 및 UI 개발에 특히 강함
강점:
- 균형잡힌 성능과 비용
- 복잡한 코딩 작업
- 멀티 파일 로직
- Firebase, Supabase 등 통합
- 상태 관리 (React, Zustand)
- 컨텍스트 유지 능력 우수
약점:
- Opus보다는 약한 추론 (극한 상황)
- Haiku보다는 느림
Claude Haiku 4.5
출시: 2025년 10월
가격: $1/M 입력, $5/M 출력
컨텍스트: 200K 토큰
특징:
- Claude에서 가장 빠른 모델 (Sonnet 4.5의 4-5배)
- Sonnet 4 수준의 성능
- Sonnet 4.5의 90% 성능 (에이전트 코딩)
- Extended Thinking, Computer Use, Context Awareness 지원
- Anthropic의 가장 안전한 모델 (ASL-2)
강점:
- 번개같은 속도
- UI 스캐폴딩 및 프로토타입
- 실시간 응답 필요 작업
- 고볼륨 작업
- 비용 효율성
약점:
- 긴 세션에서 컨텍스트 손실
- 깊은 추론 부족
- 복잡한 로직에 부적합
Gemini 모델 라인업 (Google DeepMind)
Gemini 3 Pro
출시: 2025년 11월
가격: $2/M 입력, $10/M 출력
컨텍스트: ~1M 토큰
특징:
- Gemini 3 패밀리의 최강 모델
- 지속적 추론, 도구 사용, 구조화된 워크플로우에 최적화
- 에이전트 파이프라인, 대규모 문서 분석, 엔터프라이즈 통합에 우수
- Sonnet 4.5보다 느리지만 미션 크리티컬 작업에 높은 신뢰성
강점:
- 멀티모달 이해 (텍스트, 이미지, 비디오, 오디오)
- 긴 컨텍스트 처리
- Google Workspace 통합
- 비전 이해 (Claude, OpenAI보다 우수)
- 복잡한 에이전트 워크플로우
약점:
- Claude Opus보다 비싼 편 (장기 작업 시)
- OpenAI보다 써드파티 통합 적음
Gemini 3 Flash
출시: 2026년 1월
가격: $0.50/M 입력, $3/M 출력
컨텍스트: ~1M 토큰
특징:
- Gemini 3 Pro급 추론 + Flash급 속도/효율
- Gemini 2.5 Pro보다 3배 빠름
- SWE-bench Verified: 78.0% (Pro의 76.2%보다 높음!)
- 코딩 벤치마크에서 실제로 Pro를 능가
- Dynamic Thinking으로 작업 복잡도에 따라 추론 조절
- 30% 적은 토큰으로 동일 작업 수행
강점:
- 압도적 가성비 (Pro의 1/4 가격)
- 실시간 에이전트 워크플로우
- 비디오 분석, 데이터 추출
- 게임 내 어시스턴트
- A/B 테스트 실험
- 멀티모달 추론 (4배 빠른 분석)
약점:
- Pro보다 약간 낮은 추론 깊이 (극한 상황)
Gemini 3 Deep Think (모드)
특징:
- Gemini 3 Pro의 강화된 추론 모드
- 여러 추론 경로 탐색 후 답변
- 복잡한 수학, 과학, 전략적 계획에 최적
- Google AI Ultra 구독자만 사용 가능
강점:
- 최고 수준의 추론 깊이
- 창의적 문제 해결
- 단계별 개선 작업
약점:
- 매우 느림
- 높은 비용
- 제한된 접근성
OpenAI 모델 라인업
GPT-5.2
출시: 2025년 12월
가격: $1.75/M 입력, $10/M 출력
컨텍스트: 400K 토큰
모드:
- Auto: 쿼리에 따라 자동으로 Instant/Thinking 전환
- Instant: 즉각 응답, 창의적 작업
- Thinking: 확장된 추론, 복잡한 문제
특징:
- OpenAI 최신 플래그십
- GPT-5 대비 개선된 추론, 환각 감소
- SWE-bench Verified: 80% (Thinking 모드)
- ARC-AGI-1: 90% 돌파 (Pro 모드)
- ARC-AGI-2: 54.2% (Pro 모드)
강점:
- 3가지 모드로 유연한 사용
- 우수한 일반 지식 작업
- 환각 45% 감소 (vs GPT-4o)
- 80% 감소 (Thinking vs o3)
- 광범위한 써드파티 통합
약점:
- Claude Sonnet보다 코딩에서 약간 뒤처짐
- Gemini보다 비전 이해 약함
GPT-5.1
출시: 2025년 11월
가격: $1.25/M 입력, $10/M 출력
컨텍스트: 400K 토큰
특징:
- GPT-5의 적응형 버전
- 동적 추론 노력 (no reasoning 모드 포함)
- 24시간 프롬프트 캐싱
- 네이티브 apply_patch, shell 도구
- 에이전트 및 코딩 워크로드에 최적화
강점:
- 복잡한 에이전트 작업
- 빠른 응답 + 필요 시 깊은 추론
- 프로덕트 목업 및 비주얼 핸드오프
약점:
- GPT-5.2가 출시되면서 점차 대체됨
GPT-5
출시: 2025년 8월
가격: $1.25/M 입력, $10/M 출력
특징:
- GPT-4o보다 훨씬 저렴
- MMLU: 89.3% (vs GPT-4의 86.5%)
- 개선된 추론, 환각 감소
- “EQ” 향상 (미묘한 대화)
강점:
- 압도적 가성비
- Claude Opus 4.5 대비 1/10 가격
- 일반 지식 작업
- 고볼륨 애플리케이션
약점:
- 최신 모델(5.1, 5.2)보다 성능 낮음
o3
출시: 2025년 4월
가격: $2/M 입력 (low), $8/M 출력 (high)
컨텍스트: 200K 토큰
특징:
- 전용 추론 모델
- 3단계 추론 노력 (low, medium, high)
- STEM 작업 특화 (수학, 과학, 코딩)
- 단계별 문제 해결
강점:
- 복잡한 수학 증명
- 알고리즘 최적화
- 프로그램 합성/수리
- 분석적 계획
약점:
- 매우 느림
- 일반 작업에 과잉
- GPT-5보다 환각 많음 (6배)
o4-mini
특징:
- STEM 전용 경량 모델
- AIME 수학 벤치마크 최고 (상대 크기 대비)
- 빠른 정밀도
강점:
- 로직 집약 작업
- 빠른 수학 계산
약점:
- STEM 외 작업에 부적합
GPT-4.1
가격: $2.50/M 입력
컨텍스트: 1M 토큰
특징:
- 거대한 컨텍스트 윈도우
- 엄격한 포맷팅 규칙 준수
- “JSON만 출력”, “Python 들여쓰기 사용” 같은 지시 정확히 따름
강점:
- 대규모 코드베이스 분석
- 여러 문서 동시 처리
- 구조화된 출력
약점:
- GPT-5 시리즈보다 대화형 능력 떨어짐
GPT-4o
가격: $2.50/M 입력
특징:
- 멀티모달 (텍스트, 비전, 오디오)
- 232-320ms 오디오 레이턴시
- 네이티브 음성 파이프라인
강점:
- 실시간 음성 인터랙션
- 비전 작업
- 멀티링구얼
약점:
- GPT-5보다 추론 약함
역할별 최적 모델 매칭
1. Product Manager (기획자)
목표: 사용자 스토리 작성, 요구사항 정의, 우선순위 결정, 비즈니스 가치 평가
1순위: Claude Opus 4.5
이유:
- 복잡한 비즈니스 로직 이해
- 다양한 이해관계자 관점 고려
- 전략적 사고 및 장기 계획
- 미묘한 트레이드오프 평가
사용 시나리오:
1
2
3
4
5
6
7
8
우리 SaaS 제품에 AI 챗봇 기능을 추가하려고 해.
다음을 고려해서 PRD를 작성해줘:
- 타겟 사용자: B2B 중소기업
- 예산: $50k
- 경쟁사: Intercom, Zendesk
- 차별화 포인트: 업계 특화 지식
SWOT 분석, 로드맵, 우선순위까지 포함해줘.
2순위: Gemini 3 Pro
이유:
- 멀티모달 이해 (문서, 차트, 비디오 분석)
- Google Workspace 통합 (Docs, Sheets, Slides)
- 긴 컨텍스트로 대규모 리서치 요약
사용 시나리오:
1
2
3
[100페이지 시장 조사 보고서 PDF 업로드]
이 보고서를 분석하고, 우리 제품에 가장 유망한 시장 기회 3가지를 추천해줘.
각 기회마다 TAM, 경쟁 강도, 진입 장벽을 평가해줘.
3순위: GPT-5.2 (Thinking 모드)
이유:
- 여러 시나리오 탐색
- 데이터 기반 의사결정
- 명확한 커뮤니케이션
사용 시나리오:
1
2
3
4
5
6
7
8
Feature A (소셜 로그인)와 Feature B (고급 분석)를 비교해줘.
다음 기준으로 평가:
1. 예상 사용자 채택률
2. 개발 비용 (인월)
3. 유지보수 복잡도
4. 경쟁 우위 기여도
RICE 점수를 계산하고 추천해줘.
2. UI/UX Designer (웹디자이너)
목표: 와이어프레임 설계, 디자인 시스템 구축, 사용자 경험 최적화
1순위: Gemini 3 Flash
이유:
- 최고의 비전 이해 능력
- 실시간 UI 생성 및 반복
- 멀티모달 추론 (이미지 → 설명 → 인터랙티브 UI)
- 빠른 A/B 테스트
사용 시나리오:
1
2
3
4
5
6
7
[손으로 그린 와이어프레임 이미지 업로드]
이 스케치를 기반으로 3가지 다른 디자인 변형을 만들어줘:
1. 미니멀 (공백 많이)
2. 데이터 집약 (정보 밀도 높게)
3. 모바일 우선 (큰 터치 타겟)
각 변형을 HTML + Tailwind CSS로 코딩해줘.
2순위: Claude Sonnet 4.5
이유:
- “픽셀 퍼펙트” 레이아웃 생성
- Tailwind CSS 전문가
- 컴포넌트 재사용성 고려
- 접근성(a11y) 자동 적용
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
디자인 시스템의 Button 컴포넌트를 만들어줘.
요구사항:
- 5가지 variant (primary, secondary, outline, ghost, destructive)
- 3가지 size (sm, md, lg)
- disabled, loading 상태
- 아이콘 지원 (왼쪽/오른쪽)
- WCAG 2.1 AA 준수 (4.5:1 대비)
TypeScript + Tailwind로 구현하고, Storybook 스토리도 작성해줘.
3순위: GPT-5.2 (Instant 모드)
이유:
- 빠른 브레인스토밍
- 창의적 아이디어 생성
- 자연스러운 대화형 디자인 토론
사용 시나리오:
1
2
3
e커머스 체크아웃 페이지를 디자인하고 있어.
최근 UX 트렌드와 모범 사례를 알려주고,
Cart Abandonment를 줄일 수 있는 디자인 아이디어 10가지를 제안해줘.
3. Frontend Developer (웹코더)
목표: React/Vue 컴포넌트 구현, API 통합, 클라이언트 로직
1순위: Claude Sonnet 4.5
이유:
- “세계 최고의 코딩 모델”
- React, Next.js, TypeScript 전문가
- 멀티 파일 로직 우수
- 상태 관리 (Zustand, React Query) 탁월
- 컨텍스트 유지 능력 최고
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
Next.js 15 + TypeScript로 실시간 채팅 컴포넌트를 만들어줘.
기능:
- Socket.io 클라이언트 연동
- 메시지 목록 (무한 스크롤)
- 타이핑 인디케이터
- 읽음 확인
- 이모지 피커
- 이미지 업로드 (드래그앤드롭)
상태 관리: Zustand
스타일: Tailwind CSS
테스트: Vitest + React Testing Library
2순위: Gemini 3 Flash
이유:
- UI 생성 속도 4배 빠름
- 실시간 반복 작업 최적
- 비용 효율 (Sonnet의 1/6)
- 고볼륨 컴포넌트 생성
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
관리자 대시보드를 위한 20개 UI 컴포넌트를 만들어줘:
- 카드, 테이블, 차트, 폼, 모달, 사이드바, 헤더, 푸터, 탭...
각 컴포넌트는:
- TypeScript
- Tailwind CSS
- 반응형
- 다크 모드 지원
빠르게 전체 구조를 만들어줘.
3순위: Claude Haiku 4.5
이유:
- 번개같은 속도 (프로토타입)
- UI 스캐폴딩 최고
- 간단한 컴포넌트 빠르게 생성
사용 시나리오:
1
2
로그인 폼, 회원가입 폼, 비밀번호 재설정 폼을 만들어줘.
간단한 검증만 있으면 돼. 빠르게 초안 만들자.
4. Backend Developer
목표: API 설계, 데이터베이스 로직, 비즈니스 규칙 구현
1순위: Claude Opus 4.5
이유:
- 복잡한 비즈니스 로직 이해
- 아키텍처 설계 (마이크로서비스, 이벤트 기반)
- 보안 고려사항 자동 적용
- 성능 최적화 전략
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
멀티 테넌트 SaaS 애플리케이션의 인증 시스템을 설계해줘.
요구사항:
- 3가지 테넌트 타입 (Free, Pro, Enterprise)
- 역할 기반 접근 제어 (RBAC)
- SSO 지원 (SAML, OAuth)
- 세션 관리 (Redis)
- 감사 로그 (누가 언제 무엇을 했는지)
아키텍처 다이어그램, 데이터베이스 스키마, API 엔드포인트, 보안 체크리스트를 제공해줘.
2순위: Claude Sonnet 4.5
이유:
- 일반적인 백엔드 작업에 최적
- Node.js, Python, Java 모두 우수
- ORM (Prisma, TypeORM) 전문가
- 테스트 코드 자동 생성
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Express.js로 RESTful API를 만들어줘.
엔드포인트:
- POST /api/tasks (생성)
- GET /api/tasks (목록, 페이지네이션, 필터링)
- GET /api/tasks/:id (상세)
- PUT /api/tasks/:id (수정)
- DELETE /api/tasks/:id (삭제)
- Prisma ORM
- Zod 검증
- JWT 인증
- 에러 핸들링 미들웨어
- Jest 통합 테스트
3순위: GPT-5.2 (Thinking 모드)
이유:
- 알고리즘 최적화
- 데이터 구조 선택
- 복잡한 쿼리 최적화
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
PostgreSQL에서 100만 개 레코드 중 복잡한 조건으로 검색해야 해.
조건:
- 텍스트 검색 (제목 + 본문)
- 날짜 범위
- 다중 태그 (AND 조건)
- 우선순위 정렬
- 페이지네이션
가장 빠른 쿼리를 작성하고, 필요한 인덱스를 추천해줘.
성능 비교도 해줘 (인덱스 전/후).
5. Database Architect
목표: 스키마 설계, 정규화, 인덱싱, 쿼리 최적화
1순위: Claude Opus 4.5
이유:
- 복잡한 데이터 모델링
- 정규화 vs 반정규화 트레이드오프
- 스케일링 전략 (샤딩, 파티셔닝)
- 마이그레이션 위험 분석
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
소셜 미디어 플랫폼의 데이터베이스를 설계해줘.
엔티티:
- Users (1000만 예상)
- Posts (1억 예상, 매일 100만 신규)
- Comments (10억 예상)
- Likes, Follows, Messages...
요구사항:
- 읽기/쓰기 비율: 90:10
- 99 percentile 응답 시간: 100ms
- 다운타임 없는 스키마 변경
ERD, 정규화 수준, 인덱스 전략, 파티셔닝 방법, 캐싱 전략을 제공해줘.
2순위: GPT-5.2 (Thinking 모드)
이유:
- 쿼리 성능 분석
- EXPLAIN ANALYZE 해석
- 인덱스 조합 최적화
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
이 쿼리가 너무 느려:
SELECT u.name, COUNT(p.id) as post_count
FROM users u
LEFT JOIN posts p ON u.id = p.user_id
WHERE u.created_at > '2024-01-01'
AND p.status = 'published'
GROUP BY u.id
HAVING post_count > 10
ORDER BY post_count DESC
LIMIT 100;
EXPLAIN ANALYZE 결과:
[실행 계획 붙여넣기]
왜 느린지 분석하고, 최적화 방법을 알려줘.
3순위: Claude Sonnet 4.5
이유:
- 일반적인 스키마 작업
- Prisma, TypeORM 전문가
- 마이그레이션 스크립트 생성
6. QA/QC Engineer
목표: 테스트 작성, 버그 검증, 품질 보증
1순위: Claude Haiku 4.5
이유:
- 빠른 테스트 생성
- 고볼륨 테스트 케이스
- 비용 효율 (대량 실행)
- 90% Sonnet 성능
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
로그인 API에 대한 테스트를 100개 만들어줘.
정상 케이스 20개
에러 케이스 80개:
- 잘못된 이메일 형식
- 빈 필드
- SQL Injection 시도
- XSS 시도
- 비밀번호 길이 위반
- 존재하지 않는 사용자
- 잘못된 비밀번호
- 계정 잠김
- 이메일 미인증
- ...
Jest로 작성해줘.
2순위: Claude Sonnet 4.5
이유:
- E2E 테스트 (Playwright, Cypress)
- 복잡한 사용자 플로우
- 시각적 회귀 테스트
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
e커머스 체크아웃 플로우의 E2E 테스트를 Playwright로 작성해줘.
시나리오:
1. 상품 검색
2. 상품 상세 페이지
3. 장바구니 추가
4. 수량 변경
5. 쿠폰 적용
6. 배송지 입력
7. 결제 정보 입력
8. 주문 완료 확인
각 단계마다 어서션 포함.
3순위: GPT-4o
이유:
- 비전 기반 테스트 (스크린샷 비교)
- UI 회귀 탐지
- 시각적 버그 발견
7. Security Auditor
목표: 보안 검토, 취약점 스캔, 컴플라이언스 검증
1순위: Claude Opus 4.5
이유:
- 미묘한 보안 취약점 탐지
- 복잡한 공격 벡터 이해
- OWASP Top 10 전문가
- 컴플라이언스 (GDPR, SOC2) 지식
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
이 Node.js 애플리케이션의 전체 보안 검토를 해줘.
[전체 코드베이스 제공]
다음을 확인:
1. OWASP Top 10 취약점
2. 인증/권한 로직 결함
3. SQL Injection, XSS, CSRF
4. 민감 데이터 노출
5. 암호화 약점
6. 의존성 취약점
7. 환경 변수 하드코딩
8. Rate limiting 부재
각 이슈마다 CVSS 점수, 재현 방법, 해결 방법을 제공해줘.
2순위: GPT-5.2 (Thinking 모드)
이유:
- 복잡한 보안 시나리오 분석
- 공격 체인 추론
- 완화 전략 수립
3순위: Claude Sonnet 4.5
이유:
- 코드 수준 보안 리뷰
- 자동 보안 패치 생성
8. DevOps Engineer
목표: CI/CD 파이프라인, 인프라 자동화, 모니터링
1순위: Claude Sonnet 4.5
이유:
- Kubernetes, Docker 전문가
- Terraform, Ansible 작성
- GitHub Actions, Jenkins 파이프라인
- 멀티 클라우드 (AWS, GCP, Azure)
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Kubernetes로 마이크로서비스 배포 매니페스트를 작성해줘.
서비스:
- Frontend (Next.js)
- Backend API (Node.js)
- Worker (Python)
- PostgreSQL
- Redis
- Nginx Ingress
요구사항:
- 블루-그린 배포
- Auto-scaling (HPA)
- Health checks
- Secrets 관리
- Logging (FluentBit → Elasticsearch)
- Monitoring (Prometheus + Grafana)
2순위: GPT-5.1
이유:
- 셸 도구 네이티브 지원
- Bash 스크립트 최적화
- 복잡한 파이프라인 디버깅
3순위: Gemini 3 Pro
이유:
- GCP 통합 우수
- Google Cloud 문서 이해
9. Data Scientist / Analyst
목표: 데이터 분석, 시각화, 머신러닝 모델
1순위: o3 (OpenAI)
이유:
- 복잡한 수학 계산
- 통계 분석 전문
- 알고리즘 최적화
- 데이터 파이프라인 설계
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
A/B 테스트 결과를 분석해줘.
데이터:
- Control: 10,000 사용자, 전환율 2.3%
- Treatment: 10,000 사용자, 전환율 2.7%
다음을 계산:
1. 통계적 유의성 (p-value, z-score)
2. 신뢰 구간 (95%)
3. 효과 크기 (Cohen's d)
4. 필요한 샘플 크기 (80% power)
5. 비즈니스 영향 ($1M 월 매출 가정)
결론과 함께 Python 코드로 계산 과정을 보여줘.
2순위: GPT-5.2 (Thinking 모드)
이유:
- 데이터 해석
- 인사이트 도출
- 시각화 추천
3순위: Gemini 3 Flash
이유:
- 빠른 탐색적 데이터 분석 (EDA)
- 차트 생성
- 실시간 대시보드
10. Technical Writer / Documentation
목표: API 문서, 사용자 가이드, 튜토리얼 작성
1순위: Claude Sonnet 4.5
이유:
- 명확하고 간결한 설명
- 코드 예시 포함 문서
- API 레퍼런스 자동 생성
- 다양한 난이도 대응 (초보자/전문가)
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
REST API 문서를 OpenAPI 3.0 스펙으로 작성해줘.
엔드포인트: POST /api/v1/users
요청:
{
"email": "string",
"password": "string",
"name": "string"
}
응답 (201):
{
"id": "uuid",
"email": "string",
"name": "string",
"created_at": "datetime"
}
에러 (400, 409, 500)도 포함하고,
각 필드 설명, 검증 규칙, 예시를 추가해줘.
2순위: GPT-5.2 (Instant 모드)
이유:
- 빠른 초안 작성
- 자연스러운 문체
- 다양한 톤 (공식적/친근함)
3순위: Gemini 3 Flash
이유:
- 멀티모달 문서 (이미지 + 텍스트)
- 스크린샷 자동 설명
11. Code Reviewer
목표: 코드 품질, 베스트 프랙티스, 버그 탐지
1순위: Claude Opus 4.5
이유:
- “리뷰 시 다른 모델이 놓친 버그를 잡아냄”
- 미묘한 로직 에러 탐지
- 메모리 누수, 리소스 누수
- Async/동시성 문제
- 코드 냄새 (Code Smell)
사용 시나리오:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
프로덕션 배포 전 최종 리뷰를 해줘.
[전체 PR diff 제공]
다음을 집중적으로 확인:
1. 메모리 누수 가능성
2. Race condition
3. 에러 처리 누락
4. 보안 취약점
5. 성능 병목
6. 코드 가독성
7. 테스트 커버리지
각 이슈마다 심각도 (Critical/High/Medium/Low)를 표시하고,
코드 예시와 함께 수정 방법을 제안해줘.
2순위: Claude Sonnet 4.5
이유:
- 일반적인 코드 리뷰
- 스타일 가이드 준수 확인
- 리팩토링 제안
3순위: GPT-5.2 (Thinking 모드)
이유:
- 아키텍처 수준 리뷰
- 디자인 패턴 적용 검토
12. Research & Prototyping
목표: 빠른 프로토타입, 기술 검증, 실험
1순위: Gemini 3 Flash
이유:
- 압도적인 속도 + 성능
- 실시간 반복
- “Vibe Coding” 최고
- 저렴한 비용으로 여러 시도
사용 시나리오:
1
2
3
4
5
6
7
8
3D 우주 시뮬레이션을 만들어줘.
양성자부터 관측 가능한 우주까지 스케일 여행.
Three.js 사용.
부드러운 줌 애니메이션.
레이블과 정보 패널 포함.
빠르게 프로토타입 만들어줘.
2순위: Claude Haiku 4.5
이유:
- UI 프로토타입 최고 속도
- 간단한 MVP
3순위: GPT-5.2 (Instant 모드)
이유:
- 아이디어 브레인스토밍
- 빠른 검증
작업 유형별 모델 선택
코딩 작업
| 작업 유형 | 1순위 | 2순위 | 3순위 |
|---|---|---|---|
| 복잡한 알고리즘 | o3 (high) | Opus 4.5 | GPT-5.2 Thinking |
| 프론트엔드 UI | Sonnet 4.5 | Gemini 3 Flash | Haiku 4.5 |
| 백엔드 API | Sonnet 4.5 | Opus 4.5 | GPT-5.1 |
| 데이터베이스 쿼리 | Opus 4.5 | GPT-5.2 Thinking | Sonnet 4.5 |
| 빠른 프로토타입 | Gemini 3 Flash | Haiku 4.5 | GPT-5.2 Instant |
| 코드 리뷰 | Opus 4.5 | Sonnet 4.5 | GPT-5.2 Thinking |
| 리팩토링 | Sonnet 4.5 | Opus 4.5 | GPT-5.1 |
| 테스트 작성 | Haiku 4.5 | Sonnet 4.5 | Gemini 3 Flash |
| 디버깅 | Opus 4.5 | Sonnet 4.5 | o3 |
| 문서화 | Sonnet 4.5 | GPT-5.2 Instant | Gemini 3 Flash |
창의적 작업
| 작업 유형 | 1순위 | 2순위 | 3순위 |
|---|---|---|---|
| 글쓰기 | GPT-5.2 Instant | Sonnet 4.5 | Gemini 3 Flash |
| 브레인스토밍 | Gemini 3 Flash | GPT-5.2 Instant | Haiku 4.5 |
| UI 디자인 | Gemini 3 Flash | Sonnet 4.5 | GPT-5.2 Instant |
| 스토리텔링 | GPT-5.2 Instant | Opus 4.5 | Gemini 3 Pro |
| 마케팅 카피 | GPT-5.2 Instant | Sonnet 4.5 | Gemini 3 Flash |
분석 작업
| 작업 유형 | 1순위 | 2순위 | 3순위 |
|---|---|---|---|
| 데이터 분석 | o3 (high) | GPT-5.2 Thinking | Gemini 3 Pro |
| 문서 분석 | Gemini 3 Pro | Opus 4.5 | GPT-4.1 |
| 이미지 분석 | Gemini 3 Flash | GPT-4o | Gemini 3 Pro |
| 비디오 분석 | Gemini 3 Flash | Gemini 3 Pro | GPT-4o |
| 재무 분석 | o3 (high) | Opus 4.5 | GPT-5.2 Thinking |
| 법률 문서 | Opus 4.5 | Gemini 3 Pro | GPT-5.2 Thinking |
추론/계획 작업
| 작업 유형 | 1순위 | 2순위 | 3순위 |
|---|---|---|---|
| 전략 수립 | Opus 4.5 | Gemini 3 Deep Think | GPT-5.2 Thinking |
| 문제 해결 | o3 (high) | Opus 4.5 | Gemini 3 Deep Think |
| 의사결정 | Opus 4.5 | GPT-5.2 Thinking | Gemini 3 Pro |
| 계획 수립 | Opus 4.5 | Sonnet 4.5 | GPT-5.2 Thinking |
| 아키텍처 설계 | Opus 4.5 | Sonnet 4.5 | Gemini 3 Pro |
비용 대비 성능 분석
가성비 최고 모델 (2026년 1월 기준)
1위: Gemini 3 Flash
- 가격: $0.50/M 입력, $3/M 출력
- 성능: Gemini 3 Pro와 동등 (일부 벤치마크에서 앞섬)
- SWE-bench: 78.0% (Pro의 76.2%보다 높음!)
- ROI: 압도적 (Pro의 1/4 가격에 더 좋은 성능)
사용 케이스:
- 고볼륨 코딩 작업
- 실시간 에이전트
- 프로토타이핑
- 일반 개발 작업 대부분
2위: Claude Haiku 4.5
- 가격: $1/M 입력, $5/M 출력
- 성능: Sonnet 4의 성능, Sonnet 4.5의 90%
- 속도: Sonnet 4.5의 4-5배
- ROI: Sonnet 4.5의 1/3 가격
사용 케이스:
- UI 스캐폴딩
- 빠른 프로토타입
- 대량 테스트 생성
- 실시간 응답
3위: GPT-5
- 가격: $1.25/M 입력, $10/M 출력
- 성능: Claude Opus 대비 1/10 가격에 준수한 성능
- ROI: 일반 작업에 최적
사용 케이스:
- 일반 지식 작업
- 대규모 애플리케이션
- 비용 제약이 큰 프로젝트
비용 비교표 (1M 토큰 기준)
| 모델 | 입력 비용 | 출력 비용 | 합계 (1:1 비율) |
|---|---|---|---|
| Gemini 3 Flash | $0.50 | $3.00 | $3.50 ⭐ |
| Haiku 4.5 | $1.00 | $5.00 | $6.00 |
| GPT-5 | $1.25 | $10.00 | $11.25 |
| o3 (low) | $2.00 | - | - |
| Gemini 3 Pro | $2.00 | $10.00 | $12.00 |
| GPT-5.2 | $1.75 | $10.00 | $11.75 |
| Sonnet 4.5 | $3.00 | $15.00 | $18.00 |
| GPT-4.1 | $2.50 | - | - |
| o3 (high) | - | $8.00 | - |
| Opus 4.5 | $15.00 | $75.00 | $90.00 |
실전 시나리오별 비용 계산
시나리오 1: 스타트업 MVP 개발 (1개월)
- 예상 토큰: 100M 입력, 200M 출력
Gemini 3 Flash 사용:
- 비용: (100M × $0.50) + (200M × $3) = $50 + $600 = $650
Claude Sonnet 4.5 사용:
- 비용: (100M × $3) + (200M × $15) = $300 + $3,000 = $3,300
절감액: $2,650 (80% 절약)
시나리오 2: 엔터프라이즈 AI 에이전트 (월 1000만 요청)
- 평균 요청: 1K 입력, 500 토큰 출력
- 총 토큰: 10M 입력, 5M 출력
Haiku 4.5 사용:
- 비용: (10M × $1) + (5M × $5) = $10 + $25 = $35/월
Sonnet 4.5 사용:
- 비용: (10M × $3) + (5M × $15) = $30 + $75 = $105/월
절감액: $70/월 (67% 절약)
실전 조합 전략
성능과 비용을 최적화하려면 작업에 따라 모델을 전략적으로 조합하세요.
전략 1: 계층적 라우팅
구조:
1
2
3
4
5
6
7
8
9
10
사용자 요청
↓
[분류기: Haiku 4.5 - 초저렴]
↓
┌───────┬──────────┬────────┐
│ 간단한 │ 중간 복잡도 │ 복잡한 │
│ 작업 │ 작업 │ 작업 │
↓ ↓ ↓
Haiku Sonnet Opus
$6 $18 $90
구현 예시:
1
2
3
4
5
6
7
8
9
10
11
12
async function routeToModel(query: string) {
// 1단계: Haiku로 분류 (저렴)
const classification = await haiku.classify(query);
if (classification.complexity === 'simple') {
return await haiku.generate(query); // $6
} else if (classification.complexity === 'medium') {
return await sonnet.generate(query); // $18
} else {
return await opus.generate(query); // $90
}
}
절감 효과:
- 간단한 작업 80% → Haiku ($6)
- 중간 작업 15% → Sonnet ($18)
- 복잡한 작업 5% → Opus ($90)
- 평균 비용: (0.8 × $6) + (0.15 × $18) + (0.05 × $90) = $11.1 (vs 전부 Opus $90)
전략 2: 단계별 협업
Phase 1: 빠른 프로토타입 → Gemini 3 Flash
1
2
사용자: "Todo 앱 만들어줘"
Flash: [10초 만에 기본 구조 생성] ($3.50)
Phase 2: 정교화 → Claude Sonnet 4.5
1
2
사용자: "이제 실시간 동기화 추가해줘"
Sonnet: [WebSocket 로직 추가] ($18)
Phase 3: 최종 검증 → Claude Opus 4.5
1
2
사용자: "프로덕션 배포 전 리뷰해줘"
Opus: [보안, 성능, 버그 체크] ($90)
총 비용: $111.50 (vs 전부 Opus $270)
전략 3: 역할별 전문화
프로젝트: e커머스 플랫폼
| 역할 | 모델 | 비용/월 | 이유 |
|---|---|---|---|
| 기획자 | Opus 4.5 | $90 | 전략적 사고 필요 |
| UI 디자이너 | Gemini 3 Flash | $3.50 | 빠른 반복, 비전 |
| 프론트엔드 | Sonnet 4.5 | $18 | 코딩 최고 |
| 백엔드 | Sonnet 4.5 | $18 | API 전문가 |
| QA | Haiku 4.5 | $6 | 대량 테스트 |
| 보안 | Opus 4.5 | $90 | 미묘한 취약점 탐지 |
총 예상 비용: ~$225/월
전부 Opus 사용 시: ~$540/월
절감액: $315/월 (58%)
전략 4: 캐스케이드 폴백
1차 시도: 저렴한 모델
1
2
3
result = await gemini_flash.generate(query)
if result.confidence > 0.9:
return result # 성공! ($3.50)
2차 시도: 중간 모델
1
2
3
result = await sonnet.generate(query)
if result.confidence > 0.9:
return result # 성공! ($18)
3차 시도: 최강 모델
1
return await opus.generate(query) # 확실! ($90)
효과: 대부분의 요청을 저렴한 모델로 처리, 필요할 때만 비싼 모델 사용
전략 5: 태스크 분해 + 병렬 처리
복잡한 작업을 여러 간단한 작업으로 분해
나쁜 방법 (Opus로 전체 처리):
1
2
3
Opus: "100페이지 계약서 분석하고 요약해줘"
비용: $90 × 10 (긴 컨텍스트) = $900
시간: 5분
좋은 방법 (분해 + 병렬):
1
2
3
4
5
6
7
8
Sonnet: "계약서를 10개 섹션으로 나눠줘" ($18)
↓
10개 Haiku (병렬): 각 섹션 요약 ($6 × 10 = $60)
↓
Sonnet: "10개 요약을 통합해줘" ($18)
총 비용: $96
시간: 30초 (병렬 처리)
절감: $804 (89%)
속도: 10배 빠름
벤치마크 비교
SWE-bench Verified (실제 GitHub 이슈 해결)
| 모델 | 점수 | 비용 (1M) |
|---|---|---|
| GPT-5.2 (Thinking) | 80.0% | $11.75 |
| Gemini 3 Flash | 78.0% | $3.50 ⭐ |
| Claude Sonnet 4.5 | 77.2% | $18 |
| Gemini 3 Pro | 76.2% | $12 |
| Claude Haiku 4.5 | 73.3% | $6 |
| Claude Opus 4.5 | - | $90 |
분석: Gemini 3 Flash가 압도적 가성비 (2위 점수, 1/5 가격)
ARC-AGI-2 (일반 추론 능력)
| 모델 | 점수 |
|---|---|
| GPT-5.2 Pro | 54.2% |
| GPT-5.2 Thinking | 52.9% |
| Claude Opus 4.5 | 37.6% |
| Claude Sonnet 4.5 | 13.6% |
분석: 극한 추론은 GPT-5.2 Pro, Claude Opus 순
MMLU (일반 지식)
| 모델 | 점수 |
|---|---|
| GPT-5 | 89.3% |
| GPT-4 | 86.5% |
| Claude Sonnet 4.5 | ~88% (추정) |
코딩 (HumanEval)
| 모델 | 특징 |
|---|---|
| Claude Sonnet 4.5 | “세계 최고 코딩 모델” |
| Gemini 3 Flash | “Sonnet 4와 동등” |
| GPT-5.2 | “강력하지만 Sonnet보다 약간 뒤처짐” |
최종 추천 요약
만능 조합 (대부분의 프로젝트)
일상 작업: Gemini 3 Flash ($3.50)
복잡한 코딩: Claude Sonnet 4.5 ($18)
전략/리뷰: Claude Opus 4.5 ($90)
수학/추론: o3 ($2-8)
스타트업 (비용 최소화)
1순위: Gemini 3 Flash (거의 모든 것)
2순위: Claude Haiku 4.5 (빠른 작업)
3순위: GPT-5 (일반 작업)
엔터프라이즈 (품질 우선)
1순위: Claude Opus 4.5 (전략, 리뷰)
2순위: Claude Sonnet 4.5 (개발)
3순위: Gemini 3 Pro (멀티모달)
개인 개발자 (학습/실험)
1순위: Gemini 3 Flash (무료 tier 활용)
2순위: Claude Haiku 4.5 (저렴)
3순위: GPT-4o (무료 tier)
플랫폼 선택 가이드
Claude Code를 선택하는 경우
- 코딩 중심 프로젝트
- 높은 품질 요구
- 에이전트 오케스트레이션
- 긴 컨텍스트 필요
Google Antigravity를 선택하는 경우
- 브라우저 통합 테스트
- 비전/멀티모달 작업
- 실시간 반복
- Google Workspace 통합
OpenAI API를 선택하는 경우
- 광범위한 써드파티 통합
- 음성 인터랙션
- 대규모 배포
- 다양한 모델 옵션
마지막 업데이트: 2026-01-11
중요: AI 모델은 빠르게 발전합니다. 이 가이드는 2026년 1월 기준이며, 새로운 모델 출시 시 재평가가 필요합니다.
작성 일자: 2026-01-11