포스트

에이전트 역할/작업별 AI 모델 추천 가이드

에이전트 역할/작업별 AI 모델 추천 가이드

Claude, Gemini, OpenAI 완전 비교 (2026년 1월 기준)


목차

  1. 모델 개요 및 특성
  2. 역할별 최적 모델 매칭
  3. 작업 유형별 모델 선택
  4. 비용 대비 성능 분석
  5. 실전 조합 전략
  6. 벤치마크 비교

모델 개요 및 특성

Claude 모델 라인업 (Anthropic)

Claude Opus 4.5

출시: 2025년 11월
가격: $15/M 입력, $75/M 출력
컨텍스트: 200K 토큰
특징:

  • 최고 수준의 추론 능력
  • ARC-AGI-2에서 37.6% (Sonnet의 3배)
  • 복잡한 문제 해결 및 창의적 솔루션 발견에 탁월
  • 멀티 에이전트 오케스트레이션 능력
  • Effort 파라미터로 추론 깊이 조절 가능

강점:

  • 전략적 사고 및 계획
  • 복잡한 비즈니스 로직
  • 아키텍처 설계
  • 코드 리뷰 (미묘한 버그 탐지)
  • 깊이 있는 리서치

약점:

  • 느린 응답 속도
  • 높은 비용
  • 간단한 작업에는 과잉

Claude Sonnet 4.5

출시: 2025년 9월
가격: $3/M 입력, $15/M 출력
컨텍스트: 200K (베타 1M)
특징:

  • “세계 최고의 코딩 모델”
  • “에이전트를 위한 최고의 모델”
  • SWE-bench Verified: 77.2%
  • Opus 4.1과 거의 동일한 성능, 훨씬 저렴
  • 프론트엔드 및 UI 개발에 특히 강함

강점:

  • 균형잡힌 성능과 비용
  • 복잡한 코딩 작업
  • 멀티 파일 로직
  • Firebase, Supabase 등 통합
  • 상태 관리 (React, Zustand)
  • 컨텍스트 유지 능력 우수

약점:

  • Opus보다는 약한 추론 (극한 상황)
  • Haiku보다는 느림

Claude Haiku 4.5

출시: 2025년 10월
가격: $1/M 입력, $5/M 출력
컨텍스트: 200K 토큰
특징:

  • Claude에서 가장 빠른 모델 (Sonnet 4.5의 4-5배)
  • Sonnet 4 수준의 성능
  • Sonnet 4.5의 90% 성능 (에이전트 코딩)
  • Extended Thinking, Computer Use, Context Awareness 지원
  • Anthropic의 가장 안전한 모델 (ASL-2)

강점:

  • 번개같은 속도
  • UI 스캐폴딩 및 프로토타입
  • 실시간 응답 필요 작업
  • 고볼륨 작업
  • 비용 효율성

약점:

  • 긴 세션에서 컨텍스트 손실
  • 깊은 추론 부족
  • 복잡한 로직에 부적합

Gemini 모델 라인업 (Google DeepMind)

Gemini 3 Pro

출시: 2025년 11월
가격: $2/M 입력, $10/M 출력
컨텍스트: ~1M 토큰
특징:

  • Gemini 3 패밀리의 최강 모델
  • 지속적 추론, 도구 사용, 구조화된 워크플로우에 최적화
  • 에이전트 파이프라인, 대규모 문서 분석, 엔터프라이즈 통합에 우수
  • Sonnet 4.5보다 느리지만 미션 크리티컬 작업에 높은 신뢰성

강점:

  • 멀티모달 이해 (텍스트, 이미지, 비디오, 오디오)
  • 긴 컨텍스트 처리
  • Google Workspace 통합
  • 비전 이해 (Claude, OpenAI보다 우수)
  • 복잡한 에이전트 워크플로우

약점:

  • Claude Opus보다 비싼 편 (장기 작업 시)
  • OpenAI보다 써드파티 통합 적음

Gemini 3 Flash

출시: 2026년 1월
가격: $0.50/M 입력, $3/M 출력
컨텍스트: ~1M 토큰
특징:

  • Gemini 3 Pro급 추론 + Flash급 속도/효율
  • Gemini 2.5 Pro보다 3배 빠름
  • SWE-bench Verified: 78.0% (Pro의 76.2%보다 높음!)
  • 코딩 벤치마크에서 실제로 Pro를 능가
  • Dynamic Thinking으로 작업 복잡도에 따라 추론 조절
  • 30% 적은 토큰으로 동일 작업 수행

강점:

  • 압도적 가성비 (Pro의 1/4 가격)
  • 실시간 에이전트 워크플로우
  • 비디오 분석, 데이터 추출
  • 게임 내 어시스턴트
  • A/B 테스트 실험
  • 멀티모달 추론 (4배 빠른 분석)

약점:

  • Pro보다 약간 낮은 추론 깊이 (극한 상황)

Gemini 3 Deep Think (모드)

특징:

  • Gemini 3 Pro의 강화된 추론 모드
  • 여러 추론 경로 탐색 후 답변
  • 복잡한 수학, 과학, 전략적 계획에 최적
  • Google AI Ultra 구독자만 사용 가능

강점:

  • 최고 수준의 추론 깊이
  • 창의적 문제 해결
  • 단계별 개선 작업

약점:

  • 매우 느림
  • 높은 비용
  • 제한된 접근성

OpenAI 모델 라인업

GPT-5.2

출시: 2025년 12월
가격: $1.75/M 입력, $10/M 출력
컨텍스트: 400K 토큰
모드:

  • Auto: 쿼리에 따라 자동으로 Instant/Thinking 전환
  • Instant: 즉각 응답, 창의적 작업
  • Thinking: 확장된 추론, 복잡한 문제

특징:

  • OpenAI 최신 플래그십
  • GPT-5 대비 개선된 추론, 환각 감소
  • SWE-bench Verified: 80% (Thinking 모드)
  • ARC-AGI-1: 90% 돌파 (Pro 모드)
  • ARC-AGI-2: 54.2% (Pro 모드)

강점:

  • 3가지 모드로 유연한 사용
  • 우수한 일반 지식 작업
  • 환각 45% 감소 (vs GPT-4o)
  • 80% 감소 (Thinking vs o3)
  • 광범위한 써드파티 통합

약점:

  • Claude Sonnet보다 코딩에서 약간 뒤처짐
  • Gemini보다 비전 이해 약함

GPT-5.1

출시: 2025년 11월
가격: $1.25/M 입력, $10/M 출력
컨텍스트: 400K 토큰
특징:

  • GPT-5의 적응형 버전
  • 동적 추론 노력 (no reasoning 모드 포함)
  • 24시간 프롬프트 캐싱
  • 네이티브 apply_patch, shell 도구
  • 에이전트 및 코딩 워크로드에 최적화

강점:

  • 복잡한 에이전트 작업
  • 빠른 응답 + 필요 시 깊은 추론
  • 프로덕트 목업 및 비주얼 핸드오프

약점:

  • GPT-5.2가 출시되면서 점차 대체됨

GPT-5

출시: 2025년 8월
가격: $1.25/M 입력, $10/M 출력
특징:

  • GPT-4o보다 훨씬 저렴
  • MMLU: 89.3% (vs GPT-4의 86.5%)
  • 개선된 추론, 환각 감소
  • “EQ” 향상 (미묘한 대화)

강점:

  • 압도적 가성비
  • Claude Opus 4.5 대비 1/10 가격
  • 일반 지식 작업
  • 고볼륨 애플리케이션

약점:

  • 최신 모델(5.1, 5.2)보다 성능 낮음

o3

출시: 2025년 4월
가격: $2/M 입력 (low), $8/M 출력 (high)
컨텍스트: 200K 토큰
특징:

  • 전용 추론 모델
  • 3단계 추론 노력 (low, medium, high)
  • STEM 작업 특화 (수학, 과학, 코딩)
  • 단계별 문제 해결

강점:

  • 복잡한 수학 증명
  • 알고리즘 최적화
  • 프로그램 합성/수리
  • 분석적 계획

약점:

  • 매우 느림
  • 일반 작업에 과잉
  • GPT-5보다 환각 많음 (6배)

o4-mini

특징:

  • STEM 전용 경량 모델
  • AIME 수학 벤치마크 최고 (상대 크기 대비)
  • 빠른 정밀도

강점:

  • 로직 집약 작업
  • 빠른 수학 계산

약점:

  • STEM 외 작업에 부적합

GPT-4.1

가격: $2.50/M 입력
컨텍스트: 1M 토큰
특징:

  • 거대한 컨텍스트 윈도우
  • 엄격한 포맷팅 규칙 준수
  • “JSON만 출력”, “Python 들여쓰기 사용” 같은 지시 정확히 따름

강점:

  • 대규모 코드베이스 분석
  • 여러 문서 동시 처리
  • 구조화된 출력

약점:

  • GPT-5 시리즈보다 대화형 능력 떨어짐

GPT-4o

가격: $2.50/M 입력
특징:

  • 멀티모달 (텍스트, 비전, 오디오)
  • 232-320ms 오디오 레이턴시
  • 네이티브 음성 파이프라인

강점:

  • 실시간 음성 인터랙션
  • 비전 작업
  • 멀티링구얼

약점:

  • GPT-5보다 추론 약함

역할별 최적 모델 매칭

1. Product Manager (기획자)

목표: 사용자 스토리 작성, 요구사항 정의, 우선순위 결정, 비즈니스 가치 평가

1순위: Claude Opus 4.5

이유:

  • 복잡한 비즈니스 로직 이해
  • 다양한 이해관계자 관점 고려
  • 전략적 사고 및 장기 계획
  • 미묘한 트레이드오프 평가

사용 시나리오:

1
2
3
4
5
6
7
8
우리 SaaS 제품에 AI 챗봇 기능을 추가하려고 해.
다음을 고려해서 PRD를 작성해줘:
- 타겟 사용자: B2B 중소기업
- 예산: $50k
- 경쟁사: Intercom, Zendesk
- 차별화 포인트: 업계 특화 지식

SWOT 분석, 로드맵, 우선순위까지 포함해줘.

2순위: Gemini 3 Pro

이유:

  • 멀티모달 이해 (문서, 차트, 비디오 분석)
  • Google Workspace 통합 (Docs, Sheets, Slides)
  • 긴 컨텍스트로 대규모 리서치 요약

사용 시나리오:

1
2
3
[100페이지 시장 조사 보고서 PDF 업로드]
이 보고서를 분석하고, 우리 제품에 가장 유망한 시장 기회 3가지를 추천해줘.
각 기회마다 TAM, 경쟁 강도, 진입 장벽을 평가해줘.

3순위: GPT-5.2 (Thinking 모드)

이유:

  • 여러 시나리오 탐색
  • 데이터 기반 의사결정
  • 명확한 커뮤니케이션

사용 시나리오:

1
2
3
4
5
6
7
8
Feature A (소셜 로그인)와 Feature B (고급 분석)를 비교해줘.
다음 기준으로 평가:
1. 예상 사용자 채택률
2. 개발 비용 (인월)
3. 유지보수 복잡도
4. 경쟁 우위 기여도

RICE 점수를 계산하고 추천해줘.

2. UI/UX Designer (웹디자이너)

목표: 와이어프레임 설계, 디자인 시스템 구축, 사용자 경험 최적화

1순위: Gemini 3 Flash

이유:

  • 최고의 비전 이해 능력
  • 실시간 UI 생성 및 반복
  • 멀티모달 추론 (이미지 → 설명 → 인터랙티브 UI)
  • 빠른 A/B 테스트

사용 시나리오:

1
2
3
4
5
6
7
[손으로 그린 와이어프레임 이미지 업로드]
이 스케치를 기반으로 3가지 다른 디자인 변형을 만들어줘:
1. 미니멀 (공백 많이)
2. 데이터 집약 (정보 밀도 높게)
3. 모바일 우선 (큰 터치 타겟)

각 변형을 HTML + Tailwind CSS로 코딩해줘.

2순위: Claude Sonnet 4.5

이유:

  • “픽셀 퍼펙트” 레이아웃 생성
  • Tailwind CSS 전문가
  • 컴포넌트 재사용성 고려
  • 접근성(a11y) 자동 적용

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
디자인 시스템의 Button 컴포넌트를 만들어줘.

요구사항:
- 5가지 variant (primary, secondary, outline, ghost, destructive)
- 3가지 size (sm, md, lg)
- disabled, loading 상태
- 아이콘 지원 (왼쪽/오른쪽)
- WCAG 2.1 AA 준수 (4.5:1 대비)

TypeScript + Tailwind로 구현하고, Storybook 스토리도 작성해줘.

3순위: GPT-5.2 (Instant 모드)

이유:

  • 빠른 브레인스토밍
  • 창의적 아이디어 생성
  • 자연스러운 대화형 디자인 토론

사용 시나리오:

1
2
3
e커머스 체크아웃 페이지를 디자인하고 있어.
최근 UX 트렌드와 모범 사례를 알려주고,
Cart Abandonment를 줄일 수 있는 디자인 아이디어 10가지를 제안해줘.

3. Frontend Developer (웹코더)

목표: React/Vue 컴포넌트 구현, API 통합, 클라이언트 로직

1순위: Claude Sonnet 4.5

이유:

  • “세계 최고의 코딩 모델”
  • React, Next.js, TypeScript 전문가
  • 멀티 파일 로직 우수
  • 상태 관리 (Zustand, React Query) 탁월
  • 컨텍스트 유지 능력 최고

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
Next.js 15 + TypeScript로 실시간 채팅 컴포넌트를 만들어줘.

기능:
- Socket.io 클라이언트 연동
- 메시지 목록 (무한 스크롤)
- 타이핑 인디케이터
- 읽음 확인
- 이모지 피커
- 이미지 업로드 (드래그앤드롭)

상태 관리: Zustand
스타일: Tailwind CSS
테스트: Vitest + React Testing Library

2순위: Gemini 3 Flash

이유:

  • UI 생성 속도 4배 빠름
  • 실시간 반복 작업 최적
  • 비용 효율 (Sonnet의 1/6)
  • 고볼륨 컴포넌트 생성

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
관리자 대시보드를 위한 20개 UI 컴포넌트를 만들어줘:
- 카드, 테이블, 차트, 폼, 모달, 사이드바, 헤더, 푸터, 탭...

각 컴포넌트는:
- TypeScript
- Tailwind CSS
- 반응형
- 다크 모드 지원

빠르게 전체 구조를 만들어줘.

3순위: Claude Haiku 4.5

이유:

  • 번개같은 속도 (프로토타입)
  • UI 스캐폴딩 최고
  • 간단한 컴포넌트 빠르게 생성

사용 시나리오:

1
2
로그인 폼, 회원가입 폼, 비밀번호 재설정 폼을 만들어줘.
간단한 검증만 있으면 돼. 빠르게 초안 만들자.

4. Backend Developer

목표: API 설계, 데이터베이스 로직, 비즈니스 규칙 구현

1순위: Claude Opus 4.5

이유:

  • 복잡한 비즈니스 로직 이해
  • 아키텍처 설계 (마이크로서비스, 이벤트 기반)
  • 보안 고려사항 자동 적용
  • 성능 최적화 전략

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
멀티 테넌트 SaaS 애플리케이션의 인증 시스템을 설계해줘.

요구사항:
- 3가지 테넌트 타입 (Free, Pro, Enterprise)
- 역할 기반 접근 제어 (RBAC)
- SSO 지원 (SAML, OAuth)
- 세션 관리 (Redis)
- 감사 로그 (누가 언제 무엇을 했는지)

아키텍처 다이어그램, 데이터베이스 스키마, API 엔드포인트, 보안 체크리스트를 제공해줘.

2순위: Claude Sonnet 4.5

이유:

  • 일반적인 백엔드 작업에 최적
  • Node.js, Python, Java 모두 우수
  • ORM (Prisma, TypeORM) 전문가
  • 테스트 코드 자동 생성

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
Express.js로 RESTful API를 만들어줘.

엔드포인트:
- POST /api/tasks (생성)
- GET /api/tasks (목록, 페이지네이션, 필터링)
- GET /api/tasks/:id (상세)
- PUT /api/tasks/:id (수정)
- DELETE /api/tasks/:id (삭제)

- Prisma ORM
- Zod 검증
- JWT 인증
- 에러 핸들링 미들웨어
- Jest 통합 테스트

3순위: GPT-5.2 (Thinking 모드)

이유:

  • 알고리즘 최적화
  • 데이터 구조 선택
  • 복잡한 쿼리 최적화

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
PostgreSQL에서 100만 개 레코드 중 복잡한 조건으로 검색해야 해.

조건:
- 텍스트 검색 (제목 + 본문)
- 날짜 범위
- 다중 태그 (AND 조건)
- 우선순위 정렬
- 페이지네이션

가장 빠른 쿼리를 작성하고, 필요한 인덱스를 추천해줘.
성능 비교도 해줘 (인덱스 전/후).

5. Database Architect

목표: 스키마 설계, 정규화, 인덱싱, 쿼리 최적화

1순위: Claude Opus 4.5

이유:

  • 복잡한 데이터 모델링
  • 정규화 vs 반정규화 트레이드오프
  • 스케일링 전략 (샤딩, 파티셔닝)
  • 마이그레이션 위험 분석

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
소셜 미디어 플랫폼의 데이터베이스를 설계해줘.

엔티티:
- Users (1000만 예상)
- Posts (1억 예상, 매일 100만 신규)
- Comments (10억 예상)
- Likes, Follows, Messages...

요구사항:
- 읽기/쓰기 비율: 90:10
- 99 percentile 응답 시간: 100ms
- 다운타임 없는 스키마 변경

ERD, 정규화 수준, 인덱스 전략, 파티셔닝 방법, 캐싱 전략을 제공해줘.

2순위: GPT-5.2 (Thinking 모드)

이유:

  • 쿼리 성능 분석
  • EXPLAIN ANALYZE 해석
  • 인덱스 조합 최적화

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
이 쿼리가 너무 느려:

SELECT u.name, COUNT(p.id) as post_count
FROM users u
LEFT JOIN posts p ON u.id = p.user_id
WHERE u.created_at > '2024-01-01'
AND p.status = 'published'
GROUP BY u.id
HAVING post_count > 10
ORDER BY post_count DESC
LIMIT 100;

EXPLAIN ANALYZE 결과:
[실행 계획 붙여넣기]

왜 느린지 분석하고, 최적화 방법을 알려줘.

3순위: Claude Sonnet 4.5

이유:

  • 일반적인 스키마 작업
  • Prisma, TypeORM 전문가
  • 마이그레이션 스크립트 생성

6. QA/QC Engineer

목표: 테스트 작성, 버그 검증, 품질 보증

1순위: Claude Haiku 4.5

이유:

  • 빠른 테스트 생성
  • 고볼륨 테스트 케이스
  • 비용 효율 (대량 실행)
  • 90% Sonnet 성능

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
로그인 API에 대한 테스트를 100개 만들어줘.

정상 케이스 20개
에러 케이스 80개:
- 잘못된 이메일 형식
- 빈 필드
- SQL Injection 시도
- XSS 시도
- 비밀번호 길이 위반
- 존재하지 않는 사용자
- 잘못된 비밀번호
- 계정 잠김
- 이메일 미인증
- ...

Jest로 작성해줘.

2순위: Claude Sonnet 4.5

이유:

  • E2E 테스트 (Playwright, Cypress)
  • 복잡한 사용자 플로우
  • 시각적 회귀 테스트

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
e커머스 체크아웃 플로우의 E2E 테스트를 Playwright로 작성해줘.

시나리오:
1. 상품 검색
2. 상품 상세 페이지
3. 장바구니 추가
4. 수량 변경
5. 쿠폰 적용
6. 배송지 입력
7. 결제 정보 입력
8. 주문 완료 확인

각 단계마다 어서션 포함.

3순위: GPT-4o

이유:

  • 비전 기반 테스트 (스크린샷 비교)
  • UI 회귀 탐지
  • 시각적 버그 발견

7. Security Auditor

목표: 보안 검토, 취약점 스캔, 컴플라이언스 검증

1순위: Claude Opus 4.5

이유:

  • 미묘한 보안 취약점 탐지
  • 복잡한 공격 벡터 이해
  • OWASP Top 10 전문가
  • 컴플라이언스 (GDPR, SOC2) 지식

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
이 Node.js 애플리케이션의 전체 보안 검토를 해줘.

[전체 코드베이스 제공]

다음을 확인:
1. OWASP Top 10 취약점
2. 인증/권한 로직 결함
3. SQL Injection, XSS, CSRF
4. 민감 데이터 노출
5. 암호화 약점
6. 의존성 취약점
7. 환경 변수 하드코딩
8. Rate limiting 부재

각 이슈마다 CVSS 점수, 재현 방법, 해결 방법을 제공해줘.

2순위: GPT-5.2 (Thinking 모드)

이유:

  • 복잡한 보안 시나리오 분석
  • 공격 체인 추론
  • 완화 전략 수립

3순위: Claude Sonnet 4.5

이유:

  • 코드 수준 보안 리뷰
  • 자동 보안 패치 생성

8. DevOps Engineer

목표: CI/CD 파이프라인, 인프라 자동화, 모니터링

1순위: Claude Sonnet 4.5

이유:

  • Kubernetes, Docker 전문가
  • Terraform, Ansible 작성
  • GitHub Actions, Jenkins 파이프라인
  • 멀티 클라우드 (AWS, GCP, Azure)

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Kubernetes로 마이크로서비스 배포 매니페스트를 작성해줘.

서비스:
- Frontend (Next.js)
- Backend API (Node.js)
- Worker (Python)
- PostgreSQL
- Redis
- Nginx Ingress

요구사항:
- 블루-그린 배포
- Auto-scaling (HPA)
- Health checks
- Secrets 관리
- Logging (FluentBit → Elasticsearch)
- Monitoring (Prometheus + Grafana)

2순위: GPT-5.1

이유:

  • 셸 도구 네이티브 지원
  • Bash 스크립트 최적화
  • 복잡한 파이프라인 디버깅

3순위: Gemini 3 Pro

이유:

  • GCP 통합 우수
  • Google Cloud 문서 이해

9. Data Scientist / Analyst

목표: 데이터 분석, 시각화, 머신러닝 모델

1순위: o3 (OpenAI)

이유:

  • 복잡한 수학 계산
  • 통계 분석 전문
  • 알고리즘 최적화
  • 데이터 파이프라인 설계

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
A/B 테스트 결과를 분석해줘.

데이터:
- Control: 10,000 사용자, 전환율 2.3%
- Treatment: 10,000 사용자, 전환율 2.7%

다음을 계산:
1. 통계적 유의성 (p-value, z-score)
2. 신뢰 구간 (95%)
3. 효과 크기 (Cohen's d)
4. 필요한 샘플 크기 (80% power)
5. 비즈니스 영향 ($1M 월 매출 가정)

결론과 함께 Python 코드로 계산 과정을 보여줘.

2순위: GPT-5.2 (Thinking 모드)

이유:

  • 데이터 해석
  • 인사이트 도출
  • 시각화 추천

3순위: Gemini 3 Flash

이유:

  • 빠른 탐색적 데이터 분석 (EDA)
  • 차트 생성
  • 실시간 대시보드

10. Technical Writer / Documentation

목표: API 문서, 사용자 가이드, 튜토리얼 작성

1순위: Claude Sonnet 4.5

이유:

  • 명확하고 간결한 설명
  • 코드 예시 포함 문서
  • API 레퍼런스 자동 생성
  • 다양한 난이도 대응 (초보자/전문가)

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
REST API 문서를 OpenAPI 3.0 스펙으로 작성해줘.

엔드포인트: POST /api/v1/users

요청:
{
  "email": "string",
  "password": "string",
  "name": "string"
}

응답 (201):
{
  "id": "uuid",
  "email": "string",
  "name": "string",
  "created_at": "datetime"
}

에러 (400, 409, 500)도 포함하고,
각 필드 설명, 검증 규칙, 예시를 추가해줘.

2순위: GPT-5.2 (Instant 모드)

이유:

  • 빠른 초안 작성
  • 자연스러운 문체
  • 다양한 톤 (공식적/친근함)

3순위: Gemini 3 Flash

이유:

  • 멀티모달 문서 (이미지 + 텍스트)
  • 스크린샷 자동 설명

11. Code Reviewer

목표: 코드 품질, 베스트 프랙티스, 버그 탐지

1순위: Claude Opus 4.5

이유:

  • “리뷰 시 다른 모델이 놓친 버그를 잡아냄”
  • 미묘한 로직 에러 탐지
  • 메모리 누수, 리소스 누수
  • Async/동시성 문제
  • 코드 냄새 (Code Smell)

사용 시나리오:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
프로덕션 배포 전 최종 리뷰를 해줘.

[전체 PR diff 제공]

다음을 집중적으로 확인:
1. 메모리 누수 가능성
2. Race condition
3. 에러 처리 누락
4. 보안 취약점
5. 성능 병목
6. 코드 가독성
7. 테스트 커버리지

각 이슈마다 심각도 (Critical/High/Medium/Low)를 표시하고,
코드 예시와 함께 수정 방법을 제안해줘.

2순위: Claude Sonnet 4.5

이유:

  • 일반적인 코드 리뷰
  • 스타일 가이드 준수 확인
  • 리팩토링 제안

3순위: GPT-5.2 (Thinking 모드)

이유:

  • 아키텍처 수준 리뷰
  • 디자인 패턴 적용 검토

12. Research & Prototyping

목표: 빠른 프로토타입, 기술 검증, 실험

1순위: Gemini 3 Flash

이유:

  • 압도적인 속도 + 성능
  • 실시간 반복
  • “Vibe Coding” 최고
  • 저렴한 비용으로 여러 시도

사용 시나리오:

1
2
3
4
5
6
7
8
3D 우주 시뮬레이션을 만들어줘.
양성자부터 관측 가능한 우주까지 스케일 여행.

Three.js 사용.
부드러운 줌 애니메이션.
레이블과 정보 패널 포함.

빠르게 프로토타입 만들어줘.

2순위: Claude Haiku 4.5

이유:

  • UI 프로토타입 최고 속도
  • 간단한 MVP

3순위: GPT-5.2 (Instant 모드)

이유:

  • 아이디어 브레인스토밍
  • 빠른 검증

작업 유형별 모델 선택

코딩 작업

작업 유형1순위2순위3순위
복잡한 알고리즘o3 (high)Opus 4.5GPT-5.2 Thinking
프론트엔드 UISonnet 4.5Gemini 3 FlashHaiku 4.5
백엔드 APISonnet 4.5Opus 4.5GPT-5.1
데이터베이스 쿼리Opus 4.5GPT-5.2 ThinkingSonnet 4.5
빠른 프로토타입Gemini 3 FlashHaiku 4.5GPT-5.2 Instant
코드 리뷰Opus 4.5Sonnet 4.5GPT-5.2 Thinking
리팩토링Sonnet 4.5Opus 4.5GPT-5.1
테스트 작성Haiku 4.5Sonnet 4.5Gemini 3 Flash
디버깅Opus 4.5Sonnet 4.5o3
문서화Sonnet 4.5GPT-5.2 InstantGemini 3 Flash

창의적 작업

작업 유형1순위2순위3순위
글쓰기GPT-5.2 InstantSonnet 4.5Gemini 3 Flash
브레인스토밍Gemini 3 FlashGPT-5.2 InstantHaiku 4.5
UI 디자인Gemini 3 FlashSonnet 4.5GPT-5.2 Instant
스토리텔링GPT-5.2 InstantOpus 4.5Gemini 3 Pro
마케팅 카피GPT-5.2 InstantSonnet 4.5Gemini 3 Flash

분석 작업

작업 유형1순위2순위3순위
데이터 분석o3 (high)GPT-5.2 ThinkingGemini 3 Pro
문서 분석Gemini 3 ProOpus 4.5GPT-4.1
이미지 분석Gemini 3 FlashGPT-4oGemini 3 Pro
비디오 분석Gemini 3 FlashGemini 3 ProGPT-4o
재무 분석o3 (high)Opus 4.5GPT-5.2 Thinking
법률 문서Opus 4.5Gemini 3 ProGPT-5.2 Thinking

추론/계획 작업

작업 유형1순위2순위3순위
전략 수립Opus 4.5Gemini 3 Deep ThinkGPT-5.2 Thinking
문제 해결o3 (high)Opus 4.5Gemini 3 Deep Think
의사결정Opus 4.5GPT-5.2 ThinkingGemini 3 Pro
계획 수립Opus 4.5Sonnet 4.5GPT-5.2 Thinking
아키텍처 설계Opus 4.5Sonnet 4.5Gemini 3 Pro

비용 대비 성능 분석

가성비 최고 모델 (2026년 1월 기준)

1위: Gemini 3 Flash

  • 가격: $0.50/M 입력, $3/M 출력
  • 성능: Gemini 3 Pro와 동등 (일부 벤치마크에서 앞섬)
  • SWE-bench: 78.0% (Pro의 76.2%보다 높음!)
  • ROI: 압도적 (Pro의 1/4 가격에 더 좋은 성능)

사용 케이스:

  • 고볼륨 코딩 작업
  • 실시간 에이전트
  • 프로토타이핑
  • 일반 개발 작업 대부분

2위: Claude Haiku 4.5

  • 가격: $1/M 입력, $5/M 출력
  • 성능: Sonnet 4의 성능, Sonnet 4.5의 90%
  • 속도: Sonnet 4.5의 4-5배
  • ROI: Sonnet 4.5의 1/3 가격

사용 케이스:

  • UI 스캐폴딩
  • 빠른 프로토타입
  • 대량 테스트 생성
  • 실시간 응답

3위: GPT-5

  • 가격: $1.25/M 입력, $10/M 출력
  • 성능: Claude Opus 대비 1/10 가격에 준수한 성능
  • ROI: 일반 작업에 최적

사용 케이스:

  • 일반 지식 작업
  • 대규모 애플리케이션
  • 비용 제약이 큰 프로젝트

비용 비교표 (1M 토큰 기준)

모델입력 비용출력 비용합계 (1:1 비율)
Gemini 3 Flash$0.50$3.00$3.50
Haiku 4.5$1.00$5.00$6.00
GPT-5$1.25$10.00$11.25
o3 (low)$2.00--
Gemini 3 Pro$2.00$10.00$12.00
GPT-5.2$1.75$10.00$11.75
Sonnet 4.5$3.00$15.00$18.00
GPT-4.1$2.50--
o3 (high)-$8.00-
Opus 4.5$15.00$75.00$90.00

실전 시나리오별 비용 계산

시나리오 1: 스타트업 MVP 개발 (1개월)

  • 예상 토큰: 100M 입력, 200M 출력

Gemini 3 Flash 사용:

  • 비용: (100M × $0.50) + (200M × $3) = $50 + $600 = $650

Claude Sonnet 4.5 사용:

  • 비용: (100M × $3) + (200M × $15) = $300 + $3,000 = $3,300

절감액: $2,650 (80% 절약)

시나리오 2: 엔터프라이즈 AI 에이전트 (월 1000만 요청)

  • 평균 요청: 1K 입력, 500 토큰 출력
  • 총 토큰: 10M 입력, 5M 출력

Haiku 4.5 사용:

  • 비용: (10M × $1) + (5M × $5) = $10 + $25 = $35/월

Sonnet 4.5 사용:

  • 비용: (10M × $3) + (5M × $15) = $30 + $75 = $105/월

절감액: $70/월 (67% 절약)


실전 조합 전략

성능과 비용을 최적화하려면 작업에 따라 모델을 전략적으로 조합하세요.

전략 1: 계층적 라우팅

구조:

1
2
3
4
5
6
7
8
9
10
사용자 요청
    ↓
[분류기: Haiku 4.5 - 초저렴]
    ↓
┌───────┬──────────┬────────┐
│ 간단한 │  중간 복잡도 │ 복잡한  │
│ 작업   │   작업     │ 작업   │
↓       ↓          ↓
Haiku   Sonnet     Opus
$6      $18        $90

구현 예시:

1
2
3
4
5
6
7
8
9
10
11
12
async function routeToModel(query: string) {
  // 1단계: Haiku로 분류 (저렴)
  const classification = await haiku.classify(query);
  
  if (classification.complexity === 'simple') {
    return await haiku.generate(query); // $6
  } else if (classification.complexity === 'medium') {
    return await sonnet.generate(query); // $18
  } else {
    return await opus.generate(query); // $90
  }
}

절감 효과:

  • 간단한 작업 80% → Haiku ($6)
  • 중간 작업 15% → Sonnet ($18)
  • 복잡한 작업 5% → Opus ($90)
  • 평균 비용: (0.8 × $6) + (0.15 × $18) + (0.05 × $90) = $11.1 (vs 전부 Opus $90)

전략 2: 단계별 협업

Phase 1: 빠른 프로토타입 → Gemini 3 Flash

1
2
사용자: "Todo 앱 만들어줘"
Flash: [10초 만에 기본 구조 생성] ($3.50)

Phase 2: 정교화 → Claude Sonnet 4.5

1
2
사용자: "이제 실시간 동기화 추가해줘"
Sonnet: [WebSocket 로직 추가] ($18)

Phase 3: 최종 검증 → Claude Opus 4.5

1
2
사용자: "프로덕션 배포 전 리뷰해줘"
Opus: [보안, 성능, 버그 체크] ($90)

총 비용: $111.50 (vs 전부 Opus $270)

전략 3: 역할별 전문화

프로젝트: e커머스 플랫폼

역할모델비용/월이유
기획자Opus 4.5$90전략적 사고 필요
UI 디자이너Gemini 3 Flash$3.50빠른 반복, 비전
프론트엔드Sonnet 4.5$18코딩 최고
백엔드Sonnet 4.5$18API 전문가
QAHaiku 4.5$6대량 테스트
보안Opus 4.5$90미묘한 취약점 탐지

총 예상 비용: ~$225/월

전부 Opus 사용 시: ~$540/월

절감액: $315/월 (58%)

전략 4: 캐스케이드 폴백

1차 시도: 저렴한 모델

1
2
3
result = await gemini_flash.generate(query)
if result.confidence > 0.9:
    return result  # 성공! ($3.50)

2차 시도: 중간 모델

1
2
3
result = await sonnet.generate(query)
if result.confidence > 0.9:
    return result  # 성공! ($18)

3차 시도: 최강 모델

1
return await opus.generate(query)  # 확실! ($90)

효과: 대부분의 요청을 저렴한 모델로 처리, 필요할 때만 비싼 모델 사용

전략 5: 태스크 분해 + 병렬 처리

복잡한 작업을 여러 간단한 작업으로 분해

나쁜 방법 (Opus로 전체 처리):

1
2
3
Opus: "100페이지 계약서 분석하고 요약해줘"
비용: $90 × 10 (긴 컨텍스트) = $900
시간: 5분

좋은 방법 (분해 + 병렬):

1
2
3
4
5
6
7
8
Sonnet: "계약서를 10개 섹션으로 나눠줘" ($18)
↓
10개 Haiku (병렬): 각 섹션 요약 ($6 × 10 = $60)
↓
Sonnet: "10개 요약을 통합해줘" ($18)

총 비용: $96
시간: 30초 (병렬 처리)

절감: $804 (89%)
속도: 10배 빠름


벤치마크 비교

SWE-bench Verified (실제 GitHub 이슈 해결)

모델점수비용 (1M)
GPT-5.2 (Thinking)80.0%$11.75
Gemini 3 Flash78.0%$3.50 ⭐
Claude Sonnet 4.577.2%$18
Gemini 3 Pro76.2%$12
Claude Haiku 4.573.3%$6
Claude Opus 4.5-$90

분석: Gemini 3 Flash가 압도적 가성비 (2위 점수, 1/5 가격)

ARC-AGI-2 (일반 추론 능력)

모델점수
GPT-5.2 Pro54.2%
GPT-5.2 Thinking52.9%
Claude Opus 4.537.6%
Claude Sonnet 4.513.6%

분석: 극한 추론은 GPT-5.2 Pro, Claude Opus 순

MMLU (일반 지식)

모델점수
GPT-589.3%
GPT-486.5%
Claude Sonnet 4.5~88% (추정)

코딩 (HumanEval)

모델특징
Claude Sonnet 4.5“세계 최고 코딩 모델”
Gemini 3 Flash“Sonnet 4와 동등”
GPT-5.2“강력하지만 Sonnet보다 약간 뒤처짐”

최종 추천 요약

만능 조합 (대부분의 프로젝트)

일상 작업: Gemini 3 Flash ($3.50)
복잡한 코딩: Claude Sonnet 4.5 ($18)
전략/리뷰: Claude Opus 4.5 ($90)
수학/추론: o3 ($2-8)

스타트업 (비용 최소화)

1순위: Gemini 3 Flash (거의 모든 것)
2순위: Claude Haiku 4.5 (빠른 작업)
3순위: GPT-5 (일반 작업)

엔터프라이즈 (품질 우선)

1순위: Claude Opus 4.5 (전략, 리뷰)
2순위: Claude Sonnet 4.5 (개발)
3순위: Gemini 3 Pro (멀티모달)

개인 개발자 (학습/실험)

1순위: Gemini 3 Flash (무료 tier 활용)
2순위: Claude Haiku 4.5 (저렴)
3순위: GPT-4o (무료 tier)


플랫폼 선택 가이드

Claude Code를 선택하는 경우

  • 코딩 중심 프로젝트
  • 높은 품질 요구
  • 에이전트 오케스트레이션
  • 긴 컨텍스트 필요

Google Antigravity를 선택하는 경우

  • 브라우저 통합 테스트
  • 비전/멀티모달 작업
  • 실시간 반복
  • Google Workspace 통합

OpenAI API를 선택하는 경우

  • 광범위한 써드파티 통합
  • 음성 인터랙션
  • 대규모 배포
  • 다양한 모델 옵션

마지막 업데이트: 2026-01-11

중요: AI 모델은 빠르게 발전합니다. 이 가이드는 2026년 1월 기준이며, 새로운 모델 출시 시 재평가가 필요합니다.

작성 일자: 2026-01-11

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.