Cursor의 조용한 반격: Composer 1.5와 Auto 모드의 진화
진짜 길고 복잡한 작업만 Claude Code Opus 모델을 사용하고 그 외에 90% 가량은 Cursor의 Auto 모드를 쓴다.
몇개월 전만해도 Cursor의 Auto 모드는 마치 gpt4-mini 수준으로 한 페이지 스크립트 외에는 조악한 결과를 냈는데, 이제는 거의 모든 작업에도 문제없이 만족하고 예측가능한 결과를 내놓는다.
Auto 모드는 Cursor에서 얼마전 내놓은 Composer 1.5를 주로 활용한다는데, 확실히 근 1개월 사이에 품질이 좋아진게 느껴진다.
https://www.facebook.com/share/p/187P2GdrJx/
관련글
Cursor의 “War Time” 선언: AI 코딩 도구 패권 전쟁의 내막
체감이 먼저 왔다
몇 달 전까지만 해도 Cursor의 Auto 모드는 개발자들 사이에서 반쯤 포기한 기능 취급을 받았다. GPT-4 mini 수준이라는 혹평이 붙었고, 단순한 한 페이지짜리 스크립트 외에는 결과물이 조악하거나 예측하기 어려웠다. 사실상 “라우팅 최적화에 편향된 비용 절감 모드”였다. 진지하게 작업하는 개발자라면 Auto를 끄고 Claude Sonnet 혹은 Opus를 직접 지목해 썼다.
그런데 지난 한 달 사이, 그 인식이 조용히 뒤집히고 있다. 특별히 새 모델을 선택하지 않고 Auto 모드를 그냥 켜두어도 거의 모든 일상 작업에서 만족스럽고 예측 가능한 결과가 나온다는 증언이 쌓이기 시작했다. 변화의 중심에는 2026년 2월 9일에 출시된 Composer 1.5가 있다.
Composer 1.5란 무엇인가
Composer는 Cursor가 자체 개발한 전용 코딩 모델이다. Anthropic이나 OpenAI의 범용 대형 모델을 빌려 쓰는 것이 아니라, Cursor가 직접 학습시켜 자사 플랫폼에 통합한 모델이다. DeepSeek, Kimi, Qwen 같은 중국 오픈소스 모델을 기반으로, Cursor가 보유한 방대한 독점 코딩 데이터와 강화학습으로 추가 단련한 구조다.
Composer 1이 처음 나온 것은 몇 달 전이었다. 빠르고 저렴하다는 장점이 있었지만, 복잡한 작업에서는 한계가 분명했다. 그리고 2026년 2월 9일, Cursor 팀이 블로그를 통해 Composer 1.5를 공개했다. 발표문의 핵심 문장은 이것이었다.
“Composer 1.5 was built by scaling reinforcement learning 20x further on the same pretrained model. The compute used in our post-training of Composer 1.5 even surpasses the amount used to pretrain the base model.”
기반 모델은 그대로다. 새 모델을 처음부터 다시 학습시킨 것이 아니다. 대신 강화학습(Reinforcement Learning)을 20배 더 확장해 집중적으로 단련했다. 더 주목할 점은 이 사후 학습(post-training)에 투입된 컴퓨팅 비용이 기반 모델의 사전 학습(pre-training) 비용을 이미 초과했다는 것이다. 더 크고 비싼 모델을 새로 만드는 대신, 기존 모델을 코딩이라는 특정 영역에서 극한까지 단련하는 전략이다.
Cursor는 내부 벤치마크에서 Composer 1.5가 Composer 1을 빠르게 추월하며 계속 성능이 오른다고 밝혔다. 특히 어려운 작업에서 향상 폭이 가장 크다. 외부 벤치마크인 Terminal-Bench 2.0에서는 Claude Sonnet 4.5를 상회하는 성능을 기록했다. GPT-5.3 Codex(75.1%)와 Claude Opus 4.6(58.0%)에는 미치지 못하지만, Cursor가 자체 제작한 전용 모델이 Anthropic 중형 모델을 넘어섰다는 사실 자체가 의미 있다.
세 가지 기술적 핵심
생각 토큰: 복잡도에 따라 추론 깊이를 조절한다
Composer 1.5의 첫 번째 핵심은 적응형 사고(Adaptive Thinking)다. 모델이 답변을 생성하기 전, 사용자에게는 보이지 않는 “생각 토큰(thinking tokens)”을 내부적으로 만들어낸다. 이 과정에서 코드베이스를 분석하고, 다음 단계를 계획하고, 그런 다음 최종 답변을 조립한다. Cursor 팀은 이 사고 단계가 모델 지능의 핵심이라고 밝혔다.
중요한 것은 이 사고 과정의 깊이가 작업 난이도에 따라 자동으로 조절된다는 점이다. 쉬운 문제에는 최소한의 추론으로 빠르게 답하고, 어려운 문제에는 만족스러운 답을 찾을 때까지 더 깊이 생각한다. 모든 요청에 동일한 컴퓨팅을 쏟아붓지 않는다. 사용자 입장에서는 단순 작업에서 속도감을 느끼고, 복잡한 작업에서는 품질을 느끼는 구조다. 이것이 Auto 모드의 일관성을 높이는 직접적인 기술 배경이다.
자기 요약: 컨텍스트 한계를 스스로 넘는다
두 번째 핵심은 자기 요약(Self-Summarization) 메커니즘이다. 작업이 길어져 컨텍스트 창의 한계에 도달하면, 모델이 지금까지의 진행 상황을 스스로 요약하고 그 요약을 바탕으로 탐색을 재개한다. 이 과정이 필요에 따라 여러 번 재귀적으로 반복될 수 있다.
결정적인 점은 이 메커니즘이 나중에 덧붙인 기능이 아니라, 강화학습 훈련 과정에서 직접 학습된 능력이라는 것이다. 훈련 중 컨텍스트가 소진됐을 때 유용한 요약을 생성하도록 반복 훈련했기 때문에, 요약의 품질 자체가 전반적인 코딩 능력과 함께 성장한다. Cursor 내부 테스트에 따르면 자기 요약 덕분에 컨텍스트 길이가 달라져도 원래 정확도가 유지됐다. 긴 작업을 맡길 때 중간에 맥락을 잃고 표류하던 문제가 구조적으로 개선된 셈이다.
가격: Composer 1 대비 대폭 인상
세 번째로 짚어야 할 것은 가격이다. Composer 1이 입력 기준 100만 토큰당 $1.25였던 반면, Composer 1.5는 $3.50이다. 2.8배 인상이다. 더 눈길을 끄는 것은 가격 위치다. Claude Sonnet 4.5와 비교해도 더 비싸고, 같은 Cursor 플랫폼 내에서 쓸 수 있는 OpenAI GPT-5.3 Codex($1.75)의 두 배다.
다만 Auto 모드를 사용하면 이야기가 달라진다. Auto 모드는 작업 유형과 복잡도에 따라 Composer 1.5와 다른 모델을 자동으로 선택하며, Auto 버킷 내에서 소비되는 비용은 별도로 계산된다. 실제 포럼 사용자 중 한 명은 Ultra 플랜($100/월)을 쓰면서 한 달의 3분의 2가 지난 시점에 겨우 40% 정도를 소진했다고 밝혔다. 모델을 직접 지목해 쓰는 방식보다 Auto 모드가 비용 효율 면에서 훨씬 관대하다는 사용 패턴이 나타나고 있다.
커뮤니티의 반응: 찬사와 실망이 공존한다
Cursor 공식 포럼에서는 Composer 1.5를 둘러싼 뜨거운 토론이 한 달 내내 이어졌다. 반응은 극단적으로 갈렸다.
긍정적인 쪽에서 가장 자주 언급되는 단어는 “일관성”과 “속도”다. 한 개발자는 이렇게 썼다. “지금까지 Cursor를 영리한 주니어 개발자처럼 생각했는데, 이제는 시니어 개발자처럼 느껴진다. 며칠씩 걸리던 기능과 테스트 작업이 하루 안에 끝난다.” 또 다른 사용자는 백엔드와 CLI 작업 전반에서 새 기능 추가, 테스트 작성, 리팩터링 등을 만족스럽게 처리했고, 특히 코드 리뷰 작업에서 큰 변화를 체감했다고 썼다. 에이전트가 만든 코드를 검토하면서 작은 수정 사항을 큐에 넣으면 에이전트가 이를 처리하는 방식으로, 이전에는 토큰 낭비가 걱정돼 직접 수정하던 것들을 이제는 위임할 수 있게 됐다는 것이다.
커스텀 룰 준수도 테스트됐다. 한 사용자가 .cursorrules 파일에 branded types 규칙을 설정하고 동일한 프롬프트를 규칙 유무 두 조건으로 실행했는데, 규칙이 있을 때는 UserId, OrderId 같은 올바른 branded types를 생성하고 없을 때는 plain string을 사용하는 정확한 동작을 확인했다. Composer 1 대비 규칙 준수 능력이 퇴보하지 않았다는 뜻이다.
반면 비판도 만만치 않다. 가장 날카로운 지적은 “가격 대비 가치”에 대한 것이다. 한 포럼 사용자는 이렇게 썼다. “Sonnet 4.5보다 비싸면서 그보다 나은 성능을 보여줄 공인된 벤치마크가 없다. 왜 더 내야 하는지 모르겠다.” 특히 Opus 4.6으로 한 주를 훌륭하게 보낸 후 Composer 1.5를 써보면 지적 격차가 느껴진다는 토로도 있었다. 어떤 사용자는 타임스탬프 작업에서 Composer 1.5가 지시를 잘못 이해하고 엉뚱한 수정을 반복하는 경험을 상세히 기록했다. 또 Cursor의 Explore 에이전트가 서브 에이전트로 Composer 1.5를 기본 선택한다는 사실을 사용자가 모른 채 비용을 소모하게 된다는 “다크 패턴” 불만도 나왔다.
한 마디로 정리하면, Composer 1.5는 Composer 1보다 분명히 강해졌지만, 같은 가격대의 GPT-5.3 Codex나 더 비싼 Claude Opus 4.6의 대체재는 아직 아니다. 그 중간 어딘가에 위치한 선택지다.
Auto 모드가 달라진 진짜 이유
Composer 1.5 출시 이후 Auto 모드에 대한 인식이 바뀌는 데는 단순히 더 좋은 모델이 들어온 것 이상의 메커니즘이 작동하고 있다.
Auto 모드는 요청의 유형과 복잡도를 분석해 가장 적합한 모델로 라우팅한다. 이전에는 이 라우팅이 지나치게 비용 최적화에 편향되어 있어, 상당수 작업이 능력 부족 모델로 전달됐다. 결과물의 품질이 들쭉날쭉했던 근본 원인이었다.
Composer 1.5는 이 구조에서 “중간 영역”을 채우는 역할을 한다. 최상위 Opus 급 모델을 쓸 필요는 없지만 Composer 1만으로는 부족한 작업들, 즉 전체 개발 작업의 상당 부분을 차지하는 중간 복잡도 영역을 커버할 수 있게 됐다. 적응형 사고 구조 덕분에 Auto 모드가 Composer 1.5를 선택하더라도 작업 난이도에 맞게 추론 깊이를 조절하므로, 이전처럼 단순 작업용 소형 모델의 조악한 결과물을 받아보는 상황이 줄어든다.
또 하나의 변화는 자기 요약이 가져오는 “긴 작업 신뢰성”이다. Auto 모드에서 에이전트에게 다소 긴 작업을 맡길 때, 이전에는 중반쯤에서 컨텍스트를 잃고 엉뚱한 방향으로 흘러가는 경우가 많았다. Composer 1.5의 자기 요약은 이 문제를 구조적으로 줄인다. 결과적으로 “이 정도 작업은 Auto에 맡겨도 되겠다”는 신뢰 범위가 넓어졌다.
현장에서 굳어지는 분업 구조
이 변화들이 쌓이면서 실무 현장에서는 자연스러운 분업 패턴이 자리를 잡아가고 있다. 일상적인 작업의 대부분은 Cursor Auto 모드(Composer 1.5 중심)로 처리하고, 진짜 크고 복잡한 작업에만 Claude Code Opus 같은 최상위 모델을 꺼내 쓰는 방식이다.
이 분업이 합리적인 이유는 여러 도구 비교 연구에서도 확인된다. 독립 테스트에 따르면 동일한 작업을 수행할 때 Claude Code가 Cursor보다 토큰을 5.5배 적게 사용한다. 이는 Claude Code의 컨텍스트 관리 방식이 대규모 작업에 구조적으로 더 효율적임을 보여준다. 반면 Cursor는 자동완성(Tab)의 속도감, 시각적 diff 검토, VS Code 생태계와의 친숙함, 즉각적인 인라인 편집에서 고유한 가치를 갖는다.
여러 비교 분석에서 공통적으로 나타나는 패턴을 보면, 자동완성과 빠른 인라인 편집이 필요한 일상 작업에는 Cursor가, 10개 이상의 파일에 걸친 대규모 리팩터링이나 아키텍처 수준의 판단이 필요한 작업에는 Claude Code가 더 적합하다는 구분이 형성되고 있다. 실제로 Claude Code는 Cursor의 통합 터미널 안에서 실행될 수 있고, 데스크톱 앱은 diff를 Cursor 에디터에 직접 렌더링한다. 기술적으로도 두 도구의 공존을 지원하는 구조다.
이 분업은 어느 한 도구의 패배를 의미하지 않는다. 오히려 각 도구가 서로 다른 추상화 수준에서 작동한다는 사실의 반영이다. Cursor는 개발자가 주도권을 유지하면서 빠르게 반복하는 영역, Claude Code는 AI가 자율적으로 깊게 파고드는 영역. 두 역할은 충돌하지 않는다.
Composer 1.5가 증명하는 것
Composer 1.5의 등장은 기술적 성과 이상의 의미를 담고 있다.
Cursor는 OpenAI와 Anthropic 같은 프론티어 모델 제공사와 같은 방식으로 경쟁하지 않는다. 범용 대형 모델에서 Opus를 이기려는 시도가 아니다. 대신 코딩이라는 특정 영역에서, 자사 플랫폼의 독점 데이터를 기반으로, 강화학습을 집중 투자해 예측 가능한 성능 향상을 만들어내는 경로를 택했다. 그리고 그 모델을 Auto 모드의 핵심 엔진으로 배치함으로써, 개발자가 매번 모델을 선택하는 인지 부담 없이 일관된 품질을 경험하게 하는 방향으로 설계했다.
Cursor 팀은 블로그에서 “RL for coding can be continually scaled with predictable intelligence improvements”라고 밝혔다. RL 스케일링 곡선이 아직 평탄해지지 않았다는 뜻이기도 하다. 즉, Composer 2.0, 2.5가 나온다면 같은 경로로 더 나아질 수 있다는 주장이다. 가격 논란과 일부 사용자의 실망에도 불구하고, 이 전략 자체가 지닌 논리는 설득력이 있다.
에디터가 사라지는 시대라는 서사 속에서, Cursor가 지난 한 달 동안 조용히 만들어낸 것은 이것이다. 에이전트 시대에도 에디터가 살아남을 수 있는 기술적 근거다.
주요 출처: Cursor 공식 블로그 (2026-02-09), Cursor Community Forum (2026-02~03), DEV Community, Builder.io, Particula Tech, Terminal-Bench 2.0 공식 벤치마크
작성일: 2026-03-07