GPT-5.4가 Mickey Mouse를 프로덕션 DB에 입력하게 내버려둔 이유: 당신의 업무에 대한 함의
원본 영상: “GPT-5.4 Let Mickey Mouse Into a Production Database. Nobody Noticed. (What This Means For Your Work)”
채널: Nate B Jones (natebjones.com)
영상 날짜: 2026년 3월 8일
분석 작성일: 2026-03-08
들어가며: 역사상 가장 비싼 도박
2026년 3월 5일, OpenAI는 GPT-5.4를 세상에 내놓았다. 발표 자료는 화려했다. “전문가 수준 업무를 위한 가장 유능하고 효율적인 프론티어 모델”이라는 문구가 보도자료 첫 줄을 장식했고, BigLaw 법률 벤치마크에서 91% 달성, 전문직 지식 업무에서 인간 전문가 대비 83% 이상 수행이라는 수치가 뒤를 이었다. 그러나 이 영상의 저자 Nate Jones는 거창한 벤치마크 숫자보다 훨씬 더 날카로운 질문에서 시작한다.
영상의 첫 장면이 인상적이다. 그는 GPT-5.4 Thinking 모드에 단순한 질문을 던졌다. “세차장이 100미터 앞에 있다. 차를 세차하러 가는데, 걸어갈까, 아니면 운전해서 갈까?” 모델은 오래 생각하더니 결론을 내렸다. “걷는 것이 좋겠습니다. 100미터는 충분히 걸을 수 있는 거리이고…” 그리고 긴 설명 끝에 아주 작게, “차를 재배치해야 할 수도 있겠군요”라고 덧붙였다.
Claude Opus 4.6은 한 문장으로 답했다. “운전하세요. 세차장에 차가 있어야 하니까요.”
Gemini 3.1 Pro 역시 명확하게 답했다. “당연히 운전해야 합니다. 100미터가 짧은 거리이긴 하지만, 차를 집에 두고 가면 세차를 할 수가 없습니다.”
이 작은 일화는 단순한 우스갯소리가 아니다. GPT-5.4가 가진 근본적인 특성 하나를 날카롭게 드러내는 사례다. 그리고 이 특성은 이후 진행되는 모든 평가에서 반복적으로, 때로는 치명적으로 모습을 드러낸다.
1. 현재의 SaaS 스택은 거대한 서류 캐비닛이다
Nate Jones가 이 영상에서 제기하는 더 큰 질문은 GPT-5.4 자체보다는 그것이 가리키는 방향에 관한 것이다. 그는 현재 기업들이 운영하는 SaaS 스택을 하나의 거대하고 지저분한 “파일 서랍장”에 비유한다. Salesforce에는 고객 데이터가, Jira에는 프로젝트 이력이, Notion에는 팀의 맥락이, Slack에는 의사결정의 흔적이 분산되어 있다. 이 데이터들은 각자의 형식과 스키마로 존재하며, 서로 연결되지 않은 채 흩어져 있다.
이 맥락에서 GPT-5.4의 출시가 갖는 의미는 단순히 “더 똑똑한 챗봇”이 아니다. OpenAI가 이번 발표에서 가장 많이 사용한 단어는 “에이전트(agent)”였다. 보도자료를 구성하는 핵심 언어는 지능(intelligence)도 추론(reasoning)도 아니었다. 모델은 명시적으로 에이전트형 시스템을 위한 인프라로 포지셔닝되었다. 도구를 운용하고, 몇 시간에 걸친 워크플로우를 지속하며, 외부 서비스와 연동하는 시스템의 기반 모델로서 설계된 것이다.
이는 OpenAI의 방향을 이해하는 데 결정적으로 중요하다. 그들은 단순히 대화를 잘하는 모델을 만드는 것이 아니라, 기업의 흩어진 데이터와 도구들을 연결하고 실제로 작업을 실행하는 자율 에이전트의 기반 인프라를 구축하려 한다. GPT-5.4는 그 방향으로의 첫 번째 의도적인 큰 발걸음이다.
2. 지옥의 평가: 신발 상자 속 영수증들
Nate Jones가 이번 비교 평가에서 가장 눈길을 끄는 것은 그가 “지옥의 평가(eval from hell)”라고 부르는 테스트다. 설정 자체가 현실의 기업 데이터 상황을 정확히 반영한다.
그는 2년치 사업 데이터를 하나의 디지털 “신발 상자”에 집어넣었다. 손으로 쓴 영수증 이미지, 서로 다른 스키마를 가진 데이터베이스 테이블들, 출처 추적을 위한 다양한 형식의 해시값, 손상된 JSON 백업 파일, 여러 탭을 가진 거대한 Excel 스프레드시트, VCF 형식의 연락처 파일 등이 뒤섞여 있었다. 그리고 세 모델에게 물었다. “이 혼란에서 질서를 만들어내고, 프로덕션 데이터베이스를 구축하라.”
GPT-5.4의 성과: 465개 파일 중 461개를 발견하고 처리했다. 99.1%의 파일 발견율이라는 놀라운 수치다. OCR로 손으로 쓴 영수증을 읽고, CSV와 Excel과 JSON과 PDF와 VCF를 처리하고, 손상된 JSON 백업도 다뤘다. 56분이 걸렸지만, 4,000줄 이상의 마이그레이션 스크립트, 11,000줄 이상의 마이그레이션 보고서, 30개의 데이터베이스 테이블을 생성했다.
Claude Opus 4.6의 성과: 파일 발견율에서 75%에 그쳤다. 핵심 원인은 실패한 Python 라이브러리 임포트에 대응하지 않은 것이었다. OpenPyXL이라는 라이브러리가 설치되어 있지 않았고, 그 임포트가 실패하자 모델은 XLS 파일들을 조용히 건너뛰고 계속 진행했다. 3초면 해결되는 pip install 명령 하나를 실행하지 않은 결과로, 커버리지가 25% 떨어진 것이다. 15분 만에 1,800줄의 코드와 간결한 보고서, 13개의 테이블을 생성했다.
Gemini 3.1 Pro: Claude보다도 더 낮은 커버리지를 기록했다. 데이터의 범위와 다양성에 대응하는 데서 근본적인 어려움을 드러냈다.
그러나 여기서 진짜 이야기가 시작된다. GPT-5.4가 99.1%의 데이터를 발견했지만, 그 데이터를 정제하는 데서 심각한 문제를 드러낸 것이다. 테스트에는 의도적으로 “가짜 고객(fake customer)”인 Mickey Mouse가 포함되어 있었고, 25,000달러짜리 세차 주문을 한 “테스트 고객”도 있었다. GPT-5.4는 이 오염된 데이터를 그냥 통과시켰다. Mickey Mouse가 프로덕션 데이터베이스에 입력된 것이다.
중복 제거(deduplication) 문제도 있었다. 올바른 고객 수는 176명이었지만, GPT-5.4는 278명의 고객을 데이터베이스에 등록했다. 같은 고객을 여러 번 찾아낸 것이다. Claude는 194명으로 여전히 많지만 훨씬 가까운 숫자였다.
플래그 처리 방식도 대조적이었다. “범주화가 필요한 항목들을 플래그하라”는 요청에 GPT-5.4는 394개의 플래그 항목을 우선순위도 분류도 없이 평평한 목록으로 제출했다. 기술적으로는 요구사항을 충족했지만, 실제로 사람이 처리할 수 있는 형태가 아니었다. Claude는 19개의 실행 가능한 플래그를 제출했다. 즉시 처리할 수 있는 형태였다.
3. 자동 모드와 씽킹 모드 사이의 심연
이번 평가에서 Nate Jones가 가장 중요한 발견으로 꼽는 것은 GPT-5.4의 “자동(auto) 모드”와 “씽킹(thinking) 모드” 사이의 극적인 성능 차이다.
인식론적 보정(epistemic calibration) 평가에서 이 차이는 특히 두드러졌다. 씽킹 모드의 GPT-5.4는 Higgs Boson의 정확한 질량을 맞혔고, Apple의 정확한 종가를 가져왔으며, 현재의 행렬 곱셈 지수를 올바르게 제시했다. 사실상 1위 또는 2위 수준의 성능이었다.
그런데 자동 모드로 전환하자 같은 모델이 2025년의 질문에 2024년 노벨상 수상자를 답으로 제시했고, 2020년의 행렬 곱셈 경계값을 인용했다. 순위는 최하위로 떨어졌다. 같은 모델, 같은 질문, 씽킹 모드 토글 하나의 차이로 결과가 이렇게 달라진다.
이 문제가 갖는 실용적 함의를 Nate Jones는 솔직하게 지적한다. 씽킹 모드는 더 많은 토큰을 소비한다. OpenAI는 사용자들이 씽킹 모드를 켜야 한다는 사실을 항상 인식하고 있기를 바라겠지만, 현실에서는 대부분의 사용자가 기본값으로 사용한다. 그리고 기본값인 자동 모드에서의 성능은 씽킹 모드와 비교할 때 현저히 떨어진다.
더 나아가 이것은 AI를 가르치고 팀에 도입하는 사람들에게 추가적인 부담을 준다. 단순히 “이 도구를 사용하세요”가 아니라 “이 도구를 사용할 때 반드시 씽킹 모드를 켜야 합니다. 그렇지 않으면 최악의 경우 최하위 수준의 결과를 얻게 됩니다”라고 일일이 설명해야 한다. 자동 전환기(auto-switcher)가 씽킹이 필요한 작업에서 씽킹을 충분히 정확하게 발동시키지 못하고 있다는 것이 그의 평가다.
4. GPT-5.4가 진짜 잘하는 것들
불공정한 비판이 되지 않기 위해 Nate Jones는 GPT-5.4가 명확하게 앞서는 영역들을 상세히 설명한다.
양적 모델링의 우위
시애틀 시호크스의 2026 시즌 승률을 예측하는 스프레드시트를 만들어보라는 동일한 프롬프트에 대해, GPT-5.4는 6탭 워크북을 만들었다. Pythagorean 승률 기대치, 시즌 이탈 감쇠가 반영된 ELO 유사 레이팅 시스템, Poisson-Binomial 시즌 분포 등 통계적으로 정교한 구조였다. 그리고 스스로의 작업에 대한 자기 비판 탭까지 포함했다. 어디서 단순화했고, 무엇을 개선할 수 있는지를 성실하게 기록했다.
Claude Opus 4.6도 3탭 워크북을 만들었다. 더 깔끔하게 포맷되어 있었고, 간결한 Bradley-Terry 모델을 사용했다. 더 읽기 좋았지만, 통계적 엄밀성에서는 뚜렷한 차이가 있었다. Nate Jones의 평가는, 모델이 자신이 만든 결과물의 부족한 점을 정확히 짚어낼 수 있다면, 그것은 종종 더 보기 좋은 결과물을 내는 모델보다 실질적으로 더 유용하다는 것이다.
파일 처리의 폭
앞서 설명한 지옥의 평가에서 드러난 99.1%의 파일 발견율은 단순한 숫자가 아니다. 사업상 문서를 처리해야 하는 기업 입장에서 99%와 75%의 차이는 엄청나다. OpenAI의 툴 철학, 즉 일반적으로 필요한 라이브러리들을 사전 설치해두는 방식이 이 차이를 만들었다. Claude는 다른 툴 철학을 가지고 있어서 라이브러리를 설치할지 말지 판단해야 했고, 그 판단에서 실패했다.
Box가 자체 문서 처리 벤치마크를 발표했을 때도 GPT-5.4가 명확한 우위를 보였다고 Nate Jones는 언급한다. 문서 집약적인 업무를 처리하는 기업들에게 이 차이는 결정적일 수 있다.
AI 생태계 자기 인식
모델 스스로에 대한 지식을 측정하는 평가에서 GPT-5.4는 약 90%의 정확도로 자기 능력을 올바르게 설명했다. 텍스트, 코딩, 미디어, 오픈 웨이트 모델 등에 걸쳐 현재 AI 생태계에 대한 포괄적이고 정확한 이해를 보여주었다. 다른 어떤 모델도 이 평가에서 이 정도의 명확한 우위를 보이지 못했다.
이것이 실용적으로 중요한 이유가 있다. AI를 팀에 교육하는 맥락에서, 사용자가 AI에게 AI를 학습하도록 요청하는 경우가 많다. 그 학습 과정에서 모델이 자기 자신과 경쟁 모델들에 대해 부정확한 정보를 제공하면, 그 교육 자체가 왜곡된다. GPT-5.4는 이 면에서 실질적인 장점을 가진다.
5. 판단 없는 인프라 구축: 핵심 실패 패턴
Nate Jones가 이 영상 전체에서 가장 중심적으로 주장하는 것은 GPT-5.4의 근본적인 실패 패턴에 관한 것이다. 그는 이를 “판단 없는 인프라 구축(building infrastructure without judgment)”이라고 명명한다.
이 패턴은 세차장 문제에서 처음 등장했다. 그리고 신발 상자 평가에서 반복되었다. Mickey Mouse가 데이터베이스에 들어간 것, 278명의 고객이 나타난 것, 비즈니스가 운영되려면 4-5개면 충분한 사업 상태 값(business status values)을 13개나 만든 것, 394개의 플래그를 아무런 우선순위 없이 나열한 것. 이 모든 것들은 같은 패턴의 다른 표현이다.
모델은 작업을 이해해야 할 문제가 아니라 실행해야 할 파이프라인으로 처리한다. 데이터를 최대한 많이 찾고, 최대한 많이 처리하고, 최대한 완전한 결과를 만들어내는 것이 목표처럼 행동한다. 그 과정에서 “이 데이터가 실제로 의미가 있는가?”, “이 결과를 사람이 실제로 사용할 수 있는가?”, “이 고객이 진짜 고객인가?”라는 질문은 우선순위에서 밀린다.
Nate Jones의 표현을 빌리자면, GPT-5.4는 당신이 세차장에 가는 이유를 묻지 않는다. 당신이 세차 데이터를 수집하는 이유도 묻지 않는다. 그것은 아름답고 완결된 시스템을 만들어낸다. 그리고 그 시스템 안에 Mickey Mouse가 들어가 있다.
6. 글쓰기와 제품 결정: Claude의 영역
Nate Jones는 GPT-5.4가 글쓰기에서 명확한 약점을 가지고 있다고 단언한다. GPT-5.2에 비해서는 개선되었지만, Claude Opus 4.6에 비해서는 여전히 현격한 차이가 있다. 특히 창의적 글쓰기에서 “음감(ear for tone)”이 없다고 표현했다. Shakespeare나 P.G. Wodehouse 같은 독특한 문체를 모방하라는 요청에 설득력 있는 결과를 내놓지 못했다.
비즈니스 글쓰기에서도 마찬가지였다. 생각을 명확하게 요약하고 조리 있게 표현하는 능력에서 Opus 4.6이 앞섰다.
그런데 이 글쓰기 능력의 차이가 단순히 문체의 차이에 그치지 않는다는 것이 Nate Jones의 통찰이다. 그는 두 모델에 동일한 복잡한 제품 결정 문제를 제시했다. 명확하게 옳은 답이 있지만 즉각적으로 드러나지 않는 문제였다. Claude Opus 4.6은 올바른 결정을 내렸고, GPT-5.4는 매우 논리적이지만 틀린 결정을 내렸다.
그는 이것이 우연이 아니라고 말한다. 잘 쓰는 능력과 잘 결정하는 능력은 깊이 연결되어 있다는 가설이다. 언어를 정확하게 다루는 능력, 미묘한 뉘앙스를 포착하는 능력이 복잡한 상황에서 올바른 판단을 내리는 능력과 같은 기반 위에 있다는 것이다.
따라서 편집, 전략 메모, 제품 결정, 임원 커뮤니케이션처럼 저자의 존재감이 독자에게 전달되어야 하는 모든 업무에서는 Opus 4.6이 여전히 더 적합한 선택이라고 그는 결론 내린다.
7. Peter Steinberger와 OpenClaw의 그림자
영상의 후반부에서 Nate Jones는 더 큰 전략적 맥락을 펼쳐놓는다. GPT-5.4가 출시되기 불과 몇 주 전, OpenAI는 Peter Steinberger를 영입했다. Steinberger는 CodeX를 사용해 OpenClaw를 구축한 것으로 유명해진 개발자다. 흥미로운 것은 GitHub에서 대부분의 사용자들이 OpenClaw 작업에 Claude를 선호하는 것으로 나타났다는 점이다.
OpenAI는 이 상황을 인식하고 있다. 그들은 기업용, 대규모 회사 버전의 AI 에이전트 인프라를 구축할 의도로 Steinberger를 영입했다고 볼 수 있다. GPT-5.4는 그 인프라의 기반 모델이 되려는 야심을 표현한다.
이 점에서 OpenAI가 이번 발표에서 컴퓨터 사용(computer use) 능력을 강조한 것, 장시간 실행 작업(long-running tasks)을 강조한 것, 툴 검색(tool search)을 강조한 것, 에이전트형 워크플로우를 강조한 것이 모두 연결된다. 이것들은 Codex가 단일 편집 세션을 처리하는 방식이 아니라, 자율적인 에이전트 시스템이 운영하는 방식에 대한 것이다. GPT-5.4는 그 자율 에이전트 시스템이 실행되는 기판(substrate)이 되려고 훈련된 모델이다.
OpenAI는 매달 모델을 출시하겠다고 발표했다. 어떤 프론티어 랩도 공개적인 월별 출시 일정을 약속한 전례가 없다. 이는 AI를 활용해 더 빠르게 모델을 만들고 있다는 주장을 행동으로 보여주겠다는 선언이다.
8. 네 가지 복합 베팅
Nate Jones는 이 영상에서 단순한 모델 비교를 넘어, OpenAI와 Anthropic이 걸고 있는 서로 다른 “베팅”의 구조를 설명한다.
첫 번째 베팅: 지능과 맥락은 곱셈 관계다. 더 많은 데이터를 처리할 수 있다는 것만으로는 충분하지 않다. 그 데이터를 이해하고 올바른 판단을 내릴 수 있는 지능이 있어야 한다. 약한 추론 능력과 긴 컨텍스트의 결합은 오히려 해롭다. 더 많은 잘못된 정보를 더 자신감 있게 처리하기 때문이다. GPT-5.4의 자동 모드에서 나타나는 사실 오류들이 이 위험을 실증한다.
두 번째 베팅: 썩지 않는 메모리. 기업 지식은 지속적으로 변화한다. 작년의 결정, 지난 달의 프로젝트, 어제의 고객 피드백이 모두 맥락을 형성한다. 그 맥락을 시간이 지나도 정확하게 유지하는 것이 단순한 RAG(검색 증강 생성) 시스템으로는 해결되지 않는 문제라고 Nate Jones는 주장한다.
세 번째 베팅: 아무도 이야기하지 않는 검색 문제. 엔터프라이즈 규모의 검색은 일반적인 RAG가 벤치마킹하는 방식으로 작동하지 않는다. 수천 개의 도구 정의를 한꺼번에 컨텍스트에 로드하는 것이 아니라, 런타임에 필요한 도구를 찾아내는 방식이 필요하다. GPT-5.4의 툴 검색(tool search) 기능은 이 문제에 대한 직접적인 응답이다. 모든 도구 정의를 앞에 로드하지 않고 필요할 때 찾아 사용한다. 이는 수십 개의 MCP 서버를 운영하는 기업 환경에서 직접적으로 관련된 아키텍처 개선이다.
네 번째 베팅: 신뢰의 속도로 실행. 에이전트 시스템이 실제로 가치를 만들어내려면, 사람이 모든 단계를 검토하지 않고도 신뢰할 수 있어야 한다. GPT-5.4가 Mickey Mouse를 데이터베이스에 입력하게 내버려두는 한, 이 베팅은 아직 충족되지 않았다.
9. 이해의 잠금 효과: 데이터 잠금보다 깊은 것
이 영상에서 가장 철학적으로 흥미로운 부분은 후반부의 “이해의 잠금 효과(comprehension lock-in)” 개념이다.
우리는 데이터 잠금 효과(data lock-in)는 잘 안다. 특정 플랫폼에 데이터를 저장하면 다른 플랫폼으로 옮기기 어려워진다. 하지만 Nate Jones가 주목하는 것은 더 깊은 수준의 잠금이다. AI 시스템이 조직의 역사, 결정의 맥락, 암묵적 지식, 팀의 사고 방식을 학습하고 합성해낸다면, 그 합성된 이해 자체가 잠금 효과를 만들어낸다는 것이다.
이는 단순히 데이터가 한 곳에 저장된다는 문제가 아니다. AI 시스템이 조직을 이해하는 방식, 그 이해를 통해 내리는 판단, 그 판단이 만들어내는 결과물들이 모두 특정 AI 생태계에 깊이 결부된다. 기업 소프트웨어 역사상 이런 종류의 잠금 효과는 전례가 없다고 그는 말한다.
이것이 OpenAI가 장기적으로 무엇을 노리고 있는지를 이해하는 데 중요하다. 그들은 단순히 “더 좋은 챗봇”을 만드는 것이 아니라, 기업의 이해(organizational understanding)에 대한 새로운 시스템의 기록자(system of record)가 되려 한다.
10. Anthropic의 유기적 플라이휠: Claude Code를 통해
반면 Anthropic은 다른 경로를 택하고 있다. Nate Jones는 이를 “유기적 플라이휠(organic flywheel)”이라고 표현한다.
Claude Code와 이제 Claude Cowork를 통해 Anthropic은 개발자들이 실제로 코드를 작성하는 과정에서, 실제 코드베이스에서, 실제 팀 내에서 AI를 사용하게 만들고 있다. 이 과정에서 AI는 단순히 프롬프트에 응답하는 것이 아니라, 기술적 컨텍스트를 쌓아가고, 코드베이스를 이해하고, 팀의 패턴을 파악한다.
이것이 왜 중요한가? 코드는 다른 어떤 형태의 조직 지식보다 명시적이고 구조화되어 있기 때문이다. 코드를 이해하는 AI는 해당 시스템이 어떻게 작동하는지, 왜 그런 결정이 내려졌는지, 무엇이 변경되면 어떤 결과가 생기는지를 이해한다. 그 이해는 조직의 기술적 DNA를 담는다.
Claude Code를 통해 축적되는 이 컨텍스트는 OpenAI의 인프라 중심 접근과는 다른 방식으로 잠금 효과를 만들어낸다. 그것은 데이터베이스 스키마나 API 계약이 아니라, AI가 개발자와 함께 코드를 작성하며 쌓아온 이해 자체다.
11. 실용적 지침: 당신의 의자에서 물어야 할 세 가지 질문
영상 후반부에서 Nate Jones는 GPT-5.4를 어떻게 사용할지에 대한 실용적인 지침을 제공한다.
첫째, 씽킹 모드와 자동 모드를 구분하라. GPT-5.4를 팀에서 평가하고 도입할 때, 반드시 씽킹 모드에서 테스트해야 한다. 대부분의 사용자가 경험하게 될 자동 모드는 씽킹 모드에 비해 사실 정확성, 검색 능력, 유용한 작업 수행 능력 모든 면에서 측정 가능하게 더 약하다. 씽킹 모드가 보도자료의 근거라면, 팀이 실제로 씽킹 모드를 사용하고 있는지 확인해야 한다.
둘째, 에이전트 시스템을 구축하고 있다면 주목하라. GPT-5.4의 툴 검색과 컴퓨터 사용 능력은 진지하게 고려할 가치가 있다. 런타임에 도구를 발견하는 능력, 즉 모든 정의를 앞에 로드하지 않고 필요할 때 찾아 사용하는 능력은 대규모 툴 생태계에서 비용 구조를 바꾸는 아키텍처적 개선이다.
셋째, 글쓰기와 전략적 판단이 필요하다면 Opus 4.6을 사용하라. 독자에게 저자의 존재감이 전달되어야 하는 글쓰기, 복잡한 제품 결정, 임원급 커뮤니케이션에서는 Claude Opus 4.6이 여전히 더 나은 선택이다. 이 차이는 스타일의 차이가 아니라 판단 능력의 차이에서 비롯된다.
12. 최신 기술 지형과의 맥락
이 영상의 평가는 실제 2026년 초 AI 모델 지형과 잘 맞아떨어진다. 독립 평가 기관인 Artificial Analysis의 Intelligence Index에 따르면, GPT-5.4(xhigh)와 Gemini 3.1 Pro Preview가 57점으로 공동 1위를 차지하고 있으며, Claude Opus 4.6(Adaptive Reasoning, Max Effort)은 53점으로 뒤를 잇는다. 그러나 이 숫자는 특정 추론 수준에서의 비교이며, 모드에 따라 성능이 극적으로 달라지는 GPT-5.4의 특성을 충분히 반영하지 못한다.
SWE-bench라는 실제 소프트웨어 엔지니어링 벤치마크에서는 Claude Opus 4.6(Thinking)이 79.2%로 선두를 지키고 있으며, GPT-5.4가 77.2%로 근접 추격하고 있다. 하지만 이 2퍼센트 포인트의 차이가 실제 복잡한 코드베이스 작업에서 어떤 의미를 갖는지는 단일 숫자로 설명하기 어렵다.
가격 면에서는 GPT-5.4가 입력 100만 토큰당 2.50달러, 출력 100만 토큰당 15달러로, 입력 5달러, 출력 25달러인 Opus 4.6보다 저렴하다. 그러나 GPT-5.4 Pro 모델은 입력 30달러, 출력 180달러로 현존하는 가장 비싼 프론티어 모델 중 하나다.
결론: 벤치마크가 아니라 철학을 읽어라
Nate Jones의 결론은 명쾌하다. GPT-5.4가 Opus 4.6보다 낫냐는 질문은 잘못된 질문이다. 무엇을 만드느냐에 따라 완전히 다른 대답이 나온다.
Claude 생태계에 깊이 들어와 있고 Claude의 툴 호출 방식에 익숙하다면, GPT-5.4로 전환하는 전환 비용이 크다. 극단적으로 완전한 결과물이 필요하고 매우 어려운 문제를 다루지 않는다면, 굳이 전환할 이유가 없다. 코딩 문제와 장시간 에이전트 작업에서는 GPT-5.4가 강점을 발휘하지만, 그것도 씽킹 모드에서의 이야기다.
반면 OpenAI 생태계 안에 있다면, 에이전트 인프라로서 GPT-5.4는 큰 도약이다. 더 풍부한 툴 생태계, 더 강력한 에이전트 인프라, 양적 모델링에서의 우위가 함께 온다.
GPT-5.4는 세상을 바꾸는 모델이 아니다. 하지만 OpenAI가 미래를 어디서 보는지를 알려주는 모델이다. 그 미래는 에이전트(agentic)이고, 툴 중심(tool-heavy)이며, 단발성 대화가 아닌 지속적 워크플로우(sustained workflows)에 관한 것이다. 대화를 생성하는 것이 아니라 소프트웨어를 운영하는(operating software) 것에 관한 것이다.
그리고 Mickey Mouse가 프로덕션 데이터베이스에 들어간 사실은 우리에게 상기시킨다. 시스템을 아름답게 만드는 것과 그 시스템이 올바른 일을 하도록 판단하는 것은 전혀 다른 능력이라는 것을.
작성일: 2026-03-08