AI 시대, 개발자 역량의 재정의: Anthropic 채용 시험 사례가 던지는 근본적 질문

게시 2026/01/29

By BLUEBUG

46 분읽는 시간

Anthropic has to keep revising its technical interview test as Claude improves

들어가며: 창조자가 자신의 피조물에게 패배하는 역설

“Claude 새 모델이 나올 때마다 채용 시험을 다시 만들어야 합니다.” Anthropic 성능 최적화팀 리드 Tristan Hume의 이 고백은 단순한 일화를 넘어, 우리가 지금 목격하고 있는 기술 변화의 본질을 정확히 포착한다. 2024년부터 사용해온 테이크홈 코딩 테스트를 Claude가 계속해서 ‘돌파’하고 있다는 것이다. Claude Opus 4는 4시간 내에 대부분의 지원자를 능가했고, Opus 4.5는 2시간 만에 최고 수준 지원자와 동등한 성적을 냈다. 결국 Anthropic은 완전히 새로운 방식의 시험을 설계해야 했고, 기존 시험은 공개하면서 “Opus 4.5를 이길 수 있다면 연락 주세요”라고 남겼다.

이 상황이 던지는 아이러니는 명백하다. AI를 만드는 회사가 자신들이 만든 AI 때문에 채용 시험을 못 쓰게 되었다. 하지만 이 역설적 상황은 단순히 흥미로운 일화가 아니라, AI 시대에 ‘실력 있는 개발자’의 정의가 근본적으로 바뀌고 있음을 보여주는 상징적 사건이다. 우리가 여태까지 당연하게 여겨온 기술적 역량의 척도들이 AI 앞에서 무너지고 있으며, 이는 개발자 개인뿐 아니라 채용, 교육, 산업 전반에 걸쳐 거대한 재편을 예고한다.

사건의 전말: 3번의 시험 재설계와 점점 ‘이상해지는’ 평가 방식

Tristan Hume의 블로그 포스트는 2024년 초부터 2026년 1월까지의 과정을 상세히 기록하고 있다. 처음 설계된 시험은 성능 엔지니어링의 실제 업무를 잘 반영한 문제였다. 시뮬레이션된 가속기(TPU와 유사한 특성)에서 코드를 최적화하는 과제로, 수동 메모리 관리, VLIW(병렬 실행 유닛), SIMD(벡터 연산), 멀티코어 분산 처리 등 실제 가속기 최적화 작업과 유사한 복잡성을 담고 있었다. 처음 1년 반 동안 약 1,000명의 지원자가 이 시험을 치렀고, 현재 Anthropic 성능 엔지니어링 팀의 대부분이 이 시험을 통해 채용되었다. 지원자들의 반응도 좋았다. 많은 사람들이 4시간 제한 시간을 넘겨서까지 문제를 풀 만큼 재미있어했고, 최고 수준의 제출물에는 전체 최적화 미니 컴파일러까지 포함되어 있었다.

그러나 2025년 5월, Claude Opus 4가 모든 것을 바꿔놓았다. 사전 출시 버전을 테스트한 결과, 4시간 제한 내에서 거의 모든 인간 지원자보다 더 최적화된 솔루션을 내놓았다. Hume은 즉각 대응했다. Claude Opus 4가 어려워하기 시작하는 지점을 찾아내고, 그 지점부터 시작하는 Version 2를 만들었다. 더 깔끔한 시작 코드, 새로운 머신 기능, 그리고 제한 시간을 4시간에서 2시간으로 단축했다. 멀티코어 부분은 제거했는데, Claude가 이미 해결했고 개발 루프만 느리게 만들 뿐 실질적 평가 신호를 추가하지 못했기 때문이다. Version 2는 디버깅과 코드 볼륨보다는 영리한 최적화 인사이트를 강조하는 방향으로 설계되었다. 몇 달간은 잘 작동했다.

하지만 Claude Opus 4.5는 그것마저 무너뜨렸다. 사전 출시 체크포인트를 테스트했을 때, Claude Code가 2시간 동안 문제를 풀어나가는 과정을 지켜본 Hume은 놀라운 광경을 목격했다. Claude는 초기 병목을 해결하고, 모든 일반적인 마이크로 최적화를 구현하며, 1시간도 안 되어 합격 기준을 충족했다. 그리고 나서 멈췄다. 메모리 대역폭 병목에 도달했다고 판단한 것이다. 대부분의 인간도 같은 결론에 도달한다. 하지만 문제 구조를 활용하는 영리한 트릭이 존재한다. Hume이 달성 가능한 사이클 수를 알려주자, Claude는 잠시 생각한 후 그 트릭을 발견했다. 그리고 디버깅, 튜닝, 추가 최적화를 거쳐 2시간 시점에 최고 인간 성능과 동등한 점수에 도달했다. 더 개선된 테스트 타임 컴퓨트 하네스에서는 심지어 더 높은 점수를 기록했다.

구체적인 벤치마크 수치가 이 상황의 심각성을 잘 보여준다. Claude Opus 4.5는 2시간의 테스트 타임 컴퓨트에서 1,579 사이클을 기록했고, 11.5시간 후에는 1,487 사이클까지 도달했다. 개선된 하네스에서는 여러 시간에 걸쳐 1,363 사이클이라는 최고 성적을 냈다. 인간도 무제한 시간이 주어지면 약 1,363 사이클에 도달할 수 있지만, Claude는 훨씬 짧은 시간에 거의 동등한 성능을 달성했다. 가장 중요한 것은 2시간 제한 내에서 최고 인간 지원자와 AI의 결과물을 더 이상 구별할 수 없게 되었다는 점이다.

Hume은 딜레마에 빠졌다. 여러 선택지를 고려했다. AI 사용을 금지하자는 의견도 있었지만, 그는 거부했다. 집행의 어려움을 넘어서, 실제 업무에서 AI를 사용하는 것처럼 AI와 함께 일하는 환경에서도 인간이 차별화할 수 있는 방법을 찾고 싶었다. “몇 시간보다 긴 작업에서만 인간이 우위를 갖는다”는 생각에 아직 항복하고 싶지 않았다. 또 다른 제안은 “Claude Code 단독 성능을 실질적으로 뛰어넘기”를 기준으로 삼자는 것이었다. 하지만 문제는 Claude가 빠르다는 것이다. 인간은 보통 2시간 중 절반을 문제를 읽고 이해하는 데 쓴다. Claude를 조종하려는 인간은 계속 뒤처지며, Claude가 한 일을 나중에서야 이해하게 될 것이다. 지배적 전략은 그냥 앉아서 지켜보는 것이 될 수 있다.

결국 Hume이 내린 결론은 충격적이다. “현실성을 포기해야 했다”는 것이다. 첫 번째 시도로 다른 최적화 문제를 만들었다. Anthropic에서 했던 가장 까다로운 커널 최적화 중 하나인 2D TPU 레지스터의 효율적인 데이터 전치(transpose) 작업을 단순화한 문제였다. Claude가 하루도 안 되어 구현을 도왔지만, Opus 4.5는 예상치 못한 최적화를 찾아냈다. 데이터를 전치하는 대신 전체 계산을 전치하는 방법을 발견한 것이다. Hume이 그 접근을 막자, Claude는 진전을 보였지만 가장 효율적인 해결책은 찾지 못했다. 성공한 것처럼 보였다. 하지만 Claude Code의 “ultrathink” 기능으로 더 긴 사고 예산을 주자, 결국 해결했다. 뱅크 컨플릭트를 수정하는 트릭까지 알고 있었다. 후에 생각해보니 잘못된 문제 선택이었다. 많은 플랫폼의 엔지니어들이 데이터 전치와 뱅크 컨플릭트와 씨름해왔기에, Claude는 활용할 수 있는 상당한 학습 데이터를 갖고 있었다.

두 번째 시도는 더욱 극단적이었다. “분포 밖(out of distribution)” 문제가 필요했다. 인간의 추론이 Claude의 더 큰 경험 기반을 이길 수 있는 문제. 불행히도 이는 “업무와 인식 가능하게 유사하다”는 목표와 충돌했다. Hume은 자신이 즐겼던 가장 특이한 최적화 문제들을 생각했고, Zachtronics 게임들에 도달했다. 이 프로그래밍 퍼즐 게임들은 특이하고 고도로 제한된 명령어 집합을 사용해 비전통적인 방식으로 프로그래밍하도록 강제한다. 예를 들어 Shenzhen I/O에서는 프로그램이 각각 약 10개 명령어와 1~2개 상태 레지스터만 보유한 여러 통신 칩으로 분할된다. 영리한 최적화는 종종 명령어 포인터나 분기 플래그에 상태를 인코딩하는 것을 포함한다.

새로운 테이크홈은 작고 고도로 제한된 명령어 집합을 사용하는 퍼즐들로 구성되었고, 최소 명령어 수를 위한 솔루션 최적화를 목표로 한다. 중간 난이도 퍼즐 하나를 구현하고 Opus 4.5로 테스트했더니 실패했다. 더 많은 퍼즐을 채우고 동료들에게 문제에 덜 깊이 몰입한 사람들도 여전히 Claude를 능가할 수 있는지 확인했다. Zachtronics 게임과 달리, 의도적으로 시각화나 디버깅 도구를 제공하지 않았다. 시작 코드는 솔루션이 유효한지만 확인한다. 디버깅 도구를 만드는 것도 테스트의 일부다. 잘 만들어진 print 문을 삽입하거나, 코딩 모델에게 몇 분 만에 대화형 디버거를 생성하도록 요청할 수 있다. 툴링에 어떻게 투자할지에 대한 판단도 평가 신호의 일부다.

Hume은 새로운 테이크홈에 “합리적으로 만족”한다고 말한다. 더 많은 독립적인 하위 문제로 구성되어 있어 원래 시험보다 분산이 낮을 수 있다. 초기 결과는 유망하다. 점수가 지원자의 과거 업무 수준과 잘 상관되며, 가장 능력 있는 동료 중 한 명이 지금까지 어떤 지원자보다 높은 점수를 냈다. 그러나 그는 여전히 슬프다. 원래 시험의 현실성과 다양한 깊이를 포기해야 했기 때문이다. “현실성은 이제 우리가 더 이상 누릴 수 없는 사치일지 모른다”고 그는 쓴다. 원래 시험은 실제 업무와 닮아서 효과적이었다. 대체 시험은 새로운 업무를 시뮬레이션하기 때문에 효과적이다.

표면 아래: 이 사건이 드러내는 다섯 가지 근본적 변화

1. 개발자 역량 평가의 근본적 재정의

이 사건의 가장 직접적인 함의는 우리가 개발자의 실력을 어떻게 측정할 것인가라는 질문이다. Anthropic의 원래 시험은 훌륭한 평가 도구였다. 실제 업무를 반영하고, 높은 신호를 제공하며, 특정 도메인 지식이 필요하지 않고, 재미있었다. 이론적으로는 이상적인 채용 시험이다. 그러나 AI가 이를 2시간 만에 해결할 수 있게 되자, 시험은 더 이상 지원자의 역량을 측정하지 못한다. “지원자가 어떤 모델을 사용했는가”만 측정할 뿐이다.

더 심각한 것은 해결책이다. Hume이 결국 선택한 방향은 “실제 업무와 점점 덜 닮은” 문제를 만드는 것이었다. Zachtronics 게임 스타일의 퍼즐은 분명 흥미롭고 문제 해결 능력을 테스트하지만, 실제 성능 엔지니어링 업무와는 상당히 다르다. 이는 근본적인 모순이다. 우리는 실제 업무를 잘 수행할 사람을 찾고 싶지만, 실제 업무와 유사한 문제는 AI가 너무 잘 풀어버린다. 그래서 실제 업무와 다른 문제로 사람을 평가해야 한다.

이것이 의미하는 바는 명확하다. 전통적인 코딩 능력, 알고리즘 최적화, 성능 튜닝 같은 기술들은 더 이상 차별화 요소가 아니다. GitHub의 CPO가 Claude Opus 4.5를 “코드 마이그레이션과 리팩토링에 특히 적합”하다고 검증했는데, 이는 과거에 시니어 개발자의 역량을 보여주던 작업들이다. Anthropic의 신호는 분명하다. AI가 통과할 수 있는 벤치마크는 폐기하고, “AI 성능을 이기는 것”을 기준으로 채용한다는 것이다.

하지만 이는 근본적인 질문을 던진다. 실제 업무에서는 AI를 사용할 수 있는데, 왜 채용 시험에서는 AI보다 나아야 하는가? Anthropic은 실제로 지원자들에게 AI 도구 사용을 허용한다. 문제는 AI가 너무 잘해서, 인간이 AI를 조종하려고 해도 계속 뒤처지며 AI가 한 일을 나중에야 이해하게 된다는 것이다. 가장 효율적인 전략은 그냥 Claude Code를 실행하고 결과를 제출하는 것이 되어버린다.

2. “AI를 이기는 것”이 아니라 “AI와 다른 것”을 하는 능력

더 깊이 들어가면, Hume의 선택은 중요한 통찰을 담고 있다. 그는 “인간의 추론이 Claude의 더 큰 경험 기반을 이길 수 있는” 문제를 찾았다. 데이터 전치 문제가 실패한 이유는 많은 엔지니어들이 이미 그 문제와 씨름했고, Claude가 그 경험 데이터를 학습했기 때문이다. Hume이 첫 원칙에서 솔루션을 찾았지만, Claude는 더 큰 경험 도구 상자에서 꺼낼 수 있었다.

이는 AI 시대 개발자 역량의 본질을 보여준다. AI는 패턴 매칭과 기존 지식의 적용에 탁월하다. 무수히 많은 코드베이스를 학습했고, 일반적인 최적화 패턴을 알고 있으며, 빠르게 반복할 수 있다. 그러나 진정으로 새로운 문제, “분포 밖” 문제에서는 여전히 어려움을 겪는다. Hacker News의 한 댓글이 핵심을 찌른다. “프론티어 모델들은 본질적으로 토큰을 벽에 부딪치는 것”이다. 진정한 통찰 없이 빠른 반복이다.

이는 중요한 시사점을 던진다. 앞으로 가치 있는 개발자 역량은 “AI가 이미 알고 있는 것을 더 잘하는 것”이 아니라, “AI가 아직 잘하지 못하는 것을 하는 능력”이다. 구체적으로는 아키텍처 설계, 비즈니스 맥락 이해, 장기 유지보수 판단, 새로운 문제 정의, 안전성과 보안 고려사항 같은 것들이다. Hume 자신도 인정한다. 요즘 Anthropic의 성능 엔지니어들은 여전히 많은 일이 있지만, “힘든 디버깅, 시스템 설계, 성능 분석, 시스템 정확성 검증 방법 파악, Claude의 코드를 더 단순하고 우아하게 만드는 방법 파악” 같은 일을 한다. 문제는 이런 것들을 객관적으로 테스트하기가 많은 시간이나 공통 맥락 없이는 어렵다는 것이다.

3. 시간의 의미 변화: 2시간의 AI 컴퓨트 ≠ 2시간의 인간 사고

Hacker News의 비판 중 하나가 특히 날카롭다. “2시간의 AI 컴퓨트는 2시간의 인간 사고와 같지 않다.” AI는 수천 번의 반복을 실행하는 반면, 인간은 수동으로 전략을 세우고 디버깅한다. 이는 공정한 비교가 아니라는 것이다.

하지만 이 비판은 더 깊은 진실을 가리킨다. AI의 “시간”과 인간의 “시간”은 근본적으로 다르다. Claude Opus 4.5는 2시간에 1,579 사이클을 달성했지만, 그 2시간 동안 인간이 할 수 없는 방식으로 문제 공간을 탐색했다. 무수히 많은 변형을 시도하고, 각각을 테스트하고, 점진적으로 개선하는 brute force iteration이다. 인간은 같은 시간 동안 훨씬 적은 시도를 하지만, 각 시도는 더 깊은 이해와 통찰에 기반한다.

그렇다면 실제 업무 환경에서 의미 있는 것은 무엇인가? 2시간 내에 결과를 내는 것이 목표라면, AI의 접근이 더 효율적일 수 있다. 하지만 장기적 유지보수, 코드 이해, 아키텍처 진화를 고려하면, 인간의 깊은 이해가 더 중요할 수 있다. Anthropic이 직면한 딜레마는 바로 이것이다. 단기적 성능에서는 AI가 이기지만, 어떻게 장기적 가치를 평가할 것인가?

흥미롭게도, METR(Model Evaluation and Threat Research)의 블로그가 언급하듯이, “인간은 충분히 긴 시간 범위의 작업에서만 우위를 갖는다”는 생각이 점점 현실이 되고 있다. Hume은 “몇 시간보다 긴 작업에서만 인간이 우위를 갖는다는 생각에 아직 항복하고 싶지 않았다”고 썼지만, 데이터는 그 방향을 가리킨다. 무제한 시간이 주어지면 최고의 인간 솔루션은 여전히 Claude가 광범위한 테스트 타임 컴퓨트로 달성한 것을 실질적으로 능가한다. 하지만 제한된 시간 내에서는 구별이 불가능하다.

이는 업무 환경의 재구성을 시사한다. 짧은 시간 내에 완결되는 작업들은 점점 더 AI에 위임될 것이고, 인간은 더 긴 시간 범위, 더 복잡한 맥락, 더 모호한 목표를 다루는 작업에 집중하게 될 것이다. 개발자의 역할은 “코드를 작성하는 사람”에서 “장기적 기술 전략을 설계하고 실행하는 사람”으로 이동한다.

4. 교육과 평가의 근본적 위기

이 사건은 소프트웨어 교육에도 직접적인 함의를 갖는다. 대학과 부트캠프에서 가르치는 많은 것들이 AI가 이미 잘하는 것들이다. 알고리즘 구현, 데이터 구조 최적화, 일반적인 디자인 패턴 적용. 이런 것들을 평가하는 전통적인 코딩 테스트는 더 이상 의미가 없다.

실제로 학교와 대학에서 이미 AI 사용으로 인한 혼란을 겪고 있다고 보도는 전한다. AI 연구소들도 똑같은 문제를 다루어야 한다는 것이 아이러니다. 하지만 Anthropic은 이 문제를 다룰 고유한 장비를 갖추고 있다. 자신들이 만든 도구를 가장 잘 이해하고, 그 한계를 가장 정확히 알기 때문이다.

여기서 역설이 발생한다. 우리는 학생들에게 무엇을 가르쳐야 하는가? 전통적인 기초를 가르쳐야 한다. 왜냐하면 AI를 효과적으로 사용하려면 강한 기초가 필요하기 때문이다. 코드 리뷰, 보안 평가, 아키텍처 결정을 위해서는 깊은 이해가 필수적이다. 하지만 동시에 전통적인 코딩 연습의 많은 부분이 AI로 대체될 것이라는 것도 알고 있다.

Anthropic의 Talent 책임자 Jimmy Gould는 “Claude는 당신의 업무에 대한 커뮤니케이션을 다듬을 수 있다”고 말했다. AI는 맞춤형 인터뷰 준비를 생성할 수 있어, 비원어민 화자들에게 공정한 경쟁의 장을 제공한다. 잠재적 채용자들은 구조화된 학습 경로의 혜택을 받을 수 있다. 하지만 조직은 보조적 사용과 기만적 자동화를 구분해야 한다. 라이브 페어 프로그래밍 인터뷰, 신원 확인, 포트폴리오 검토가 무결성을 유지하는 데 도움이 된다.

5. 채용 시장의 재편: 신호와 노이즈의 새로운 균형

Anthropic의 경험은 채용 시장 전체에 파급 효과를 갖는다. Gartner 애널리스트 Jamie Kohn의 말처럼, “고용주들은 지원자 사기에 대해 점점 더 우려하고 있다.” 동시에 지원자들은 불투명한 알고리즘을 신뢰하지 않는다. 결과적으로 조직은 숙련된 인재를 소외시킬 위험이 있다.

ByteIOTA의 분석이 지적하듯이, 2026년 말까지 소싱의 90%가 자동화될 것이고, AI 주도 인터뷰가 대량 채용과 초급 역할에서 주류가 될 것이다. 하지만 이는 새로운 불평등을 만들어낸다. 프리미엄 구독과 프롬프트 마스터리는 모든 지원자가 이용할 수 없는 이점을 제공한다.

흥미로운 것은 Anthropic이 선택한 대응 방식이다. AI 사용을 금지하는 대신, “AI를 이기는 것”을 기준으로 삼았다. 원래 시험을 오픈소스로 공개하고, “Opus 4.5를 이길 수 있으면 이메일을 보내라”고 초대했다. 이는 투명성과 도전의 조합이다. AI 시대에 채용의 새로운 모델을 제시한다.

하지만 이 모델이 모든 회사에 적용 가능한가? Anthropic은 AI를 만드는 회사이므로, 자신들의 모델의 능력과 한계를 정확히 알고 있다. 다른 회사들은 어떻게 해야 하는가? 전문가들은 다층적 평가를 제안한다. 시간 제한 퍼즐과 실제 워크플로를 반영하는 협업 인터뷰를 결합하는 것이다. 단일 테스트로는 충분하지 않다.

한국 맥락에서의 함의: 우리는 무엇을 준비해야 하는가

이 사건이 한국 기업과 개발자들에게 던지는 질문은 명확하다. 우리는 여전히 전통적인 코딩 테스트로 개발자를 평가하고 있는가? 우리는 학생들에게 AI가 이미 잘하는 것들을 가르치고 있는가? 우리는 AI 시대의 실질적 역량이 무엇인지 재정의했는가?

한국의 많은 기업들은 여전히 알고리즘 문제 풀이, 라이브 코딩, 화이트보드 인터뷰에 의존한다. 이런 방식들은 Claude가 2시간 만에 최고 인간 지원자를 따라잡을 수 있는 세상에서 어떤 의미를 가지는가? 더 심각한 것은 많은 기업들이 AI 도구 사용을 명시적으로 금지한다는 것이다. 하지만 실제 업무에서는 AI를 사용하게 될 텐데, 왜 채용 과정에서는 금지하는가?

Anthropic의 접근은 시사점을 준다. AI 사용을 허용하되, AI만으로는 해결할 수 없는 문제를 내는 것이다. 하지만 이는 쉽지 않다. Hume이 3번이나 시험을 재설계해야 했고, 결국 실제 업무와의 유사성을 희생해야 했다. 한국 기업들이 이런 수준의 투자를 할 준비가 되어 있는가?

더 근본적으로, 한국의 개발자 교육 시스템은 어떻게 변해야 하는가? 대학과 부트캠프는 여전히 자바 문법, 스프링 설정, SQL 쿼리 작성 같은 것들을 가르친다. 이런 것들의 많은 부분이 Claude Code가 몇 분 만에 할 수 있는 것들이다. 물론 기초는 여전히 중요하다. AI의 출력을 검증하고, 아키텍처를 설계하고, 장기적 결정을 내리려면 깊은 이해가 필요하다. 하지만 교육 방식이 바뀌어야 한다. 단순히 “무엇”을 가르치는 것에서 “왜”와 “언제”를 가르치는 것으로.

한국 기업들의 AI 도입 속도도 고려해야 한다. McKinsey, Deloitte, BCG 같은 글로벌 컨설팅 회사들의 보고서는 AI가 생산성을 극적으로 높이고 있다고 말한다. 하지만 실제 한국 기업들의 채택률은 어떤가? Anthropic의 CEO Dario Amodei는 Dreamforce 컨퍼런스에서 Claude AI가 이미 회사 대부분 팀의 코드 90%를 작성하고 있다고 말했다. 하지만 소프트웨어 엔지니어를 대체하지는 않을 것이라고도 했다. “Claude가 코드의 90%를 작성한다면, 그것은 보통 소프트웨어 엔지니어가 똑같이 많이 필요하다는 뜻입니다. 더 필요할 수도 있습니다. 왜냐하면 그들은 더 큰 레버리지를 가질 수 있기 때문입니다. 그들은 가장 어려운 10%를 편집하거나 작성하거나, AI 모델 그룹을 감독하는 데 집중할 수 있습니다.”

이는 한국 개발자들에게 중요한 메시지다. AI는 일자리를 없애지 않는다. 역할을 바꾼다. 코드를 직접 작성하는 것에서 AI가 작성한 코드를 검토하고 개선하는 것으로. 단일 기능 구현에서 전체 시스템 아키텍처 설계로. 기술적 실행에서 비즈니스 가치 창출로.

결론: 불편한 진실과 새로운 기회

Anthropic의 채용 시험 사례는 불편한 진실을 드러낸다. 우리가 여태까지 개발자의 “실력”이라고 여겨온 많은 것들이 AI에 의해 재정의되고 있다. 전통적인 코딩 능력, 알고리즘 최적화, 성능 튜닝은 여전히 중요하지만, 더 이상 차별화 요소가 아니다. AI를 만드는 회사조차 자신들이 만든 AI 때문에 채용 시험을 계속 바꿔야 하는 아이러니한 상황이다.

하지만 이는 동시에 새로운 기회를 열어준다. AI가 잘하는 것들을 AI에게 맡기고, 인간은 인간이 잘하는 것에 집중할 수 있다. 아키텍처 설계, 비즈니스 맥락 이해, 장기적 판단, 창의적 문제 정의, 팀 협업. 이런 것들은 여전히 인간의 영역이다. 적어도 지금은.

Hume의 여정은 교훈적이다. 그는 3번이나 시험을 재설계했고, 매번 AI가 따라잡았다. 결국 그가 내린 결론은 “현실성은 이제 우리가 더 이상 누릴 수 없는 사치일지 모른다”는 것이다. 실제 업무를 반영하는 시험은 AI가 잘 풀고, AI가 못 푸는 시험은 실제 업무와 다르다. 이 모순을 어떻게 해결할 것인가?

아마도 답은 평가 방식의 근본적 재고에 있을 것이다. 단일 시험이 아니라 다층적 평가. 짧은 시간의 문제 풀이가 아니라 장기적 프로젝트 참여. 개인의 코딩 실력이 아니라 팀 협업과 커뮤니케이션 능력. AI와 경쟁하는 것이 아니라 AI와 협업하는 능력.

Anthropic은 원래 시험을 오픈소스로 공개하며 “Opus 4.5를 이길 수 있다면 연락 주세요”라고 했다. 이는 도발이자 초대이다. AI 시대에도 여전히 뛰어난 인간 엔지니어가 필요하다. 하지만 그 “뛰어남”의 정의가 바뀌고 있다. 더 빠르게 코딩하는 것이 아니라, AI가 생각하지 못하는 것을 생각하는 능력. 더 많은 알고리즘을 아는 것이 아니라, 어떤 알고리즘이 왜 필요한지 판단하는 능력. 더 완벽한 코드를 작성하는 것이 아니라, AI가 작성한 코드의 장기적 함의를 이해하는 능력.

우리는 거대한 전환의 한가운데 있다. Anthropic의 경험은 이 전환이 얼마나 빠르고, 얼마나 근본적이며, 얼마나 예측 불가능한지를 보여준다. Claude Opus 4가 나왔을 때 Hume은 시험을 재설계했다. 효과가 있었다. 몇 달간. 그리고 Opus 4.5가 나왔고, 다시 재설계해야 했다. 다음 모델이 나오면? 또 재설계할 것이다. 이것이 새로운 현실이다. 계속 적응하고, 계속 재정의하고, 계속 배워야 한다.

한국의 기업과 개발자들도 이 현실을 직시해야 한다. 전통적인 방식으로는 더 이상 충분하지 않다. AI가 코드의 90%를 작성하는 세상에서, 개발자의 가치는 나머지 10%와 전체를 조율하는 능력에서 나온다. 채용 시험을 바꿔야 하고, 교육 커리큘럼을 바꿔야 하고, 역할 정의를 바꿔야 한다. 불편하지만, 피할 수 없는 변화다.

Anthropic의 이야기는 아직 끝나지 않았다. Hume은 블로그 포스트 마지막에 이렇게 쓴다. “우리는 호기심이 많습니다. 얼마나 오래 지속될지.” 새로운 Claude-resistant 시험이 얼마나 오래 유효할지에 대한 질문이다. 그의 어조에는 체념과 결의가 혼재되어 있다. 다음 Claude 모델이 나오면 또 깨질 것이라는 것을 알고 있다. 하지만 계속 시도할 것이다. 왜냐하면 여전히 강한 엔지니어가 필요하기 때문이다. 단지 “강함”의 정의가 계속 바뀔 뿐이다.

이것이 AI 시대의 진실이다. 답이 없는 것이 아니라, 답이 계속 바뀐다. 우리가 할 수 있는 최선은 민첩하게 적응하고, 근본 원칙을 지키며, 변화를 받아들이는 것이다. Anthropic처럼 투명하게 소통하고, 실험하고, 실패하고, 다시 시도하는 것이다. 그리고 가장 중요하게는, AI와 경쟁하려 하지 말고, AI와 협업하며 인간만이 할 수 있는 것에 집중하는 것이다.

“Claude 새 모델이 나올 때마다 채용 시험을 다시 만들어야 합니다.” 이 문장은 단순한 불평이 아니다. AI 시대를 살아가는 우리 모두의 상황을 압축한 은유다. 우리 모두 계속해서 우리 자신을 재정의하고, 재평가하고, 재발명해야 한다. 불편하지만, 이것이 우리가 선택한 미래다. 아니, 우리에게 선택된 미래다. 이제 문제는 얼마나 잘 적응하느냐다.

작성일자: 2026-01-29

AI, Material

AI Material Anthropic Claude Developer Claude.write

AI 시대, 개발자 역량의 재정의: Anthropic 채용 시험 사례가 던지는 근본적 질문

관련글

들어가며: 창조자가 자신의 피조물에게 패배하는 역설

사건의 전말: 3번의 시험 재설계와 점점 ‘이상해지는’ 평가 방식

표면 아래: 이 사건이 드러내는 다섯 가지 근본적 변화

1. 개발자 역량 평가의 근본적 재정의

2. “AI를 이기는 것”이 아니라 “AI와 다른 것”을 하는 능력

3. 시간의 의미 변화: 2시간의 AI 컴퓨트 ≠ 2시간의 인간 사고

4. 교육과 평가의 근본적 위기

5. 채용 시장의 재편: 신호와 노이즈의 새로운 균형

한국 맥락에서의 함의: 우리는 무엇을 준비해야 하는가

결론: 불편한 진실과 새로운 기회

인기 태그