AI 에이전트의 숨겨진 엔진 — '하네스(Harness)'란 무엇인가

게시 2026/04/11

By BLUEBUG

55 분읽는 시간

앤트로픽 클로드 코드 소스코드 유출 사태로 드러난 에이전트 통제 기술의 전모

“AI 에이전트 시장의 승부처는 모델의 크기가 아니라 하네스 구조다”
— 2026년 4월, 디지털데일리 [AI 클로즈업] 중에서

들어가며 — 왜 지금 ‘하네스’인가
하네스(Harness)의 개념과 어원
AI 에이전트 시대의 도래와 통제의 필요성
앤트로픽의 4계층 에이전트 아키텍처
클로드 코드 소스코드 유출 사태 — 전말 정리
유출된 소스코드가 드러낸 것들
하네스 공학의 6대 핵심 구성 요소
설계·생성·검증 3단 구조 — GAN에서 착안한 에이전트 아키텍처
경쟁사들의 대응 — OpenAI, Google DeepMind의 하네스 전략
학계의 움직임 — 하네스 공학의 학술화
하네스 유출이 가져온 파장 — 보안 위협과 산업적 충격
한국 AI 스타트업 업계의 반응
2026년, 하네스가 경쟁의 핵심이 된 이유
결론 — 모델이 아닌 하네스가 미래를 결정한다

1. 들어가며

2026년 3월 말, 인공지능(AI) 업계에 예기치 못한 충격파가 몰아쳤다. 앤트로픽(Anthropic)의 간판 제품인 코딩 에이전트 ‘클로드 코드(Claude Code)’의 소스코드 전체가 실수로 공개 패키지 저장소에 올라간 것이다. 51만 줄이 넘는 코드, 2,000여 개의 파일, 출시 전 미공개 기능들까지 모두 담긴 이 유출 사태는 즉각 “500조원짜리 비법이 다 나왔다”는 반응을 불러일으켰다.

그런데 놀라운 것은 단순히 코드가 유출됐다는 사실이 아니었다. 유출된 내용을 분석한 개발자들이 하나같이 입을 모은 것은 바로 ‘하네스(Harness)’ 라는 구조였다. 클로드가 경쟁사보다 코딩을 잘한다고 평가받는 이유가 AI 모델 자체의 지능 차이가 아니라, 그 모델을 감싸고 통제하는 구조적 설계 — 즉 하네스 — 덕분이라는 사실이 밝혀진 것이다.

이 문서는 그 하네스가 무엇인지, 왜 중요한지, 유출 사태의 전말은 어땠는지, 그리고 이것이 AI 업계 전체에 어떤 파장을 가져왔는지를 종합적으로 정리한다.

2. 하네스의 개념과 어원

하네스(Harness) 라는 단어의 사전적 의미는 ‘말에 씌우는 마구(馬具)’다. 말이 멋대로 달리지 못하도록 방향을 잡아주고 제어하는 장치다. AI 분야에서 이 용어가 채택된 것은 아주 직관적인 비유에서 비롯됐다.

대형언어모델(LLM)은 야생마에 비유된다. 엄청난 지능과 잠재력을 가지고 있지만, 좌충우돌하며 예상치 못한 방향으로 달릴 수 있다. 특히 추론 모델(Reasoning Model)이 등장하면서 AI는 스스로 생각하고 결정하는 수준에 이르렀는데, 이 자율성이 강해질수록 엉뚱한 결과를 낼 위험도 그만큼 커진다.

하네스는 바로 이 야생마 같은 LLM에 씌우는 마구다. 에이전트가 이랬다저랬다 하는 돌발 행동을 제어하고, 일관된 업무 수행을 보장하며, 사람이 정한 규칙 안에서 움직이도록 강제하는 소프트웨어 레이어가 하네스다.

기술적으로 정의하자면, 하네스는 AI 모델 그 자체가 아니라 그 모델을 감싸고 있는 모든 소프트웨어 시스템이다. 상태 관리, 도구 오케스트레이션, 메모리 아키텍처, 오류 복구 로직, 인간 승인 흐름, 보안 경계, 실행 제약 등이 모두 하네스에 속한다.

공식처럼 표현하면 이렇다.

에이전트 = 모델(Brain) + 하네스(Body + Nervous System + Safety Rails)

모델이 뇌라면, 하네스는 몸과 신경계이자 안전망이다. 아무리 뛰어난 뇌를 가졌더라도 몸과 신경계가 엉망이면 제대로 된 일을 할 수 없는 것처럼, 아무리 좋은 AI 모델도 허술한 하네스 위에서는 기대 이하의 결과를 낸다.

3. AI 에이전트 시대의 도래와 통제의 필요성

챗봇에서 에이전트로

불과 몇 년 전만 해도 AI는 챗봇이었다. 사용자가 질문하면 미리 정해진 규칙(Rule-based)에 따라 예상 답변을 돌려주는 방식이었다. AI의 역할은 수동적이고 반응적이었다.

지금은 다르다. AI는 스스로 계획하고, 직접 실행하며, 결과를 확인하고, 필요하면 방향을 바꾼다. 이것이 ‘에이전트’다. 클로드 코드에 코딩 작업을 맡기면, 사람이 자리를 비운 사이 수십 개의 파일을 분석하고 수정해놓는다. 단순한 질의응답이 아니라 수시간짜리 자율 작업이 가능한 수준에 이른 것이다.

자율성의 양면성 — 강력함과 위험성

에이전트는 강력한 만큼 위험도 크다. 사람의 개입 없이 홀로 움직이기 때문에, 의도를 잘못 읽으면 엉뚱한 결과를 낸다. 더 심각한 위협은 ‘프롬프트 인젝션(Prompt Injection)’ 공격이다. 이메일이나 문서 안에 악성 명령을 숨겨두면 에이전트가 그것을 정상 지시로 받아들여 조종당할 수 있다.

유출된 클로드 코드 소스에서 드러난 취약점들(CVE-2025-59536, CVE-2026-21852 등)은 바로 이 프롬프트 인젝션 계열이 주를 이루고 있었다. 악성 리포지토리 파일이나 MCP 서버 구성을 통해 임의의 셸 명령을 실행시키거나 자격증명을 탈취할 수 있는 경로가 존재했던 것이다.

자율성이 클수록 통제가 더 중요해지는 이유다. 그리고 그 통제를 담당하는 것이 바로 하네스다.

신뢰성의 수학 — 20단계 파이프라인의 함정

하네스 공학이 왜 중요한지를 보여주는 흥미로운 통계가 있다. 다단계 에이전트 파이프라인에서 각 단계가 95%의 성공률을 가진다고 가정해보자. 그것만 들으면 꽤 안정적으로 들린다. 그런데 이 단계가 20개 연결되면 전체 작업 완료율은 단 36% 로 떨어진다. 95%의 성공률을 자랑하면서도 실제 작업의 3분의 1 이상을 실패하는 역설이다.

하네스는 이 복합 실패율 문제를 해결하기 위해 검증 루프, 재시도 정책, 체크포인트-재개(Checkpoint-Resume) 메커니즘을 추가한다. 하네스가 없으면 에이전트는 첫 번째 오류에서 처음부터 다시 시작해야 하지만, 하네스가 있으면 실패 지점부터 재개할 수 있다.

4. 앤트로픽의 4계층 에이전트 아키텍처

앤트로픽은 AI 에이전트를 다음과 같은 4단계 계층(Layer) 구조로 나눈다.

계층	명칭	역할
1층	모델(Model)	지능 자체. LLM의 추론·생성 능력
2층	하네스(Harness)	지침·제약. 업무 규칙을 에이전트에 심는 통제 레이어
3층	도구(Tools)	연결 서비스. 파일 시스템, API, 셸, 데이터베이스 등
4층	환경(Environment)	실행 공간. 에이전트가 작동하는 물리적·가상 공간

이 구조에서 핵심은 2층 하네스다. ‘결제 금액이 100달러를 넘으면 먼저 담당자에게 알려라’, ‘확인 없이 경비를 제출하지 마라’, ‘시스템 파일에는 절대 접근하지 마라’와 같은 업무 규칙을 에이전트에 심어 넣는 레이어가 바로 하네스다.

이 구조를 이해하면 왜 같은 모델을 쓰는 두 팀이 완전히 다른 결과를 내는지 알 수 있다. 같은 엔진(모델)을 쓰더라도 하네스 품질에 따라 에이전트의 작업 완료율이 60%와 98%로 극명하게 갈릴 수 있다는 것이 하네스 공학 연구자들의 공통된 결론이다.

5. 클로드 코드 소스코드 유출 사태

사건의 경위

2026년 3월 31일, 앤트로픽은 자사 대표 코딩 에이전트 제품인 클로드 코드(Claude Code)를 npm(Node Package Manager, 소프트웨어 패키지 공개 저장소)에 버전 2.1.88로 업데이트 배포했다. 문제는 이 과정에서 발생했다.

클로드 코드는 런타임으로 Bun을 사용한다. Bun은 기본적으로 소스맵(Source Map) 파일을 생성하는데, 이 파일은 압축·난독화된 코드를 원본 코드로 되돌려볼 수 있게 해주는 일종의 디버깅용 지도다. 담당 엔지니어가 배포 과정에서 이 소스맵 파일(.map)을 .npmignore에서 제외하는 것을 빠뜨렸고, 결과적으로 59.8MB 크기의 소스맵 파일이 공개 패키지에 그대로 포함돼 배포됐다.

이 소스맵 파일은 단순한 파일이 아니었다. 앤트로픽 자체 클라우드 스토리지(Cloudflare R2)에 호스팅된 전체 TypeScript 소스코드 ZIP 아카이브를 가리키는 포인터 역할을 했다. 즉 소스맵 파일을 발견한 사람은 곧바로 전체 소스코드에 접근할 수 있었다.

최초 발견과 급속한 확산

새벽 4시 23분(미 동부 시간), Solayer Labs에서 인턴으로 근무하던 보안 연구자 차오판 슈(Chaofan Shou, @Fried_rice)가 X(구 트위터)에 이 발견을 공개했다. 직접 다운로드 링크까지 포함된 그의 포스팅은 즉각 바이럴됐다.

몇 시간 만에 약 51만 3,000줄의 TypeScript 코드가 담긴 소스코드 전체가 GitHub에 미러링됐고, 수만 번 포크(Fork)됐다. 개발자들은 이 코드를 Rust, Python 등 다른 언어로 포팅하기 시작했으며, 분산형 서버에도 올려두었다.

앤트로픽의 대응

앤트로픽은 즉각 수습에 나섰다. 회사 대변인은 “고객 데이터나 자격증명은 노출되지 않았으며, 이는 보안 침해가 아닌 인적 오류(Human Error)에 의한 릴리즈 패키징 문제”라고 해명했다. 클로드 코드 엔지니어 보리스 체르니(Boris Cherny)도 “실수는 누구나 한다. 중요한 것은 팀으로서 이것이 개인의 잘못이 아니라 프로세스와 문화, 인프라의 문제임을 인식하는 것”이라고 공개적으로 밝혔다.

앤트로픽은 GitHub에 8,000건 이상의 DMCA(디지털 밀레니엄 저작권법) 저작권 침해 신고를 보내 소스코드 삭제를 강력히 요청했다. 그러나 이미 수만 번 미러링되고 포팅된 코드는 개발자 커뮤니티 전반에 걸쳐 빠르게 퍼져나갔고, 삭제 조치는 사실상 역부족이었다.

이것이 처음이 아니었다

더 충격적인 사실은 이 사건이 앤트로픽의 첫 번째 유출이 아니라는 점이다. 2025년 2월에도 클로드 코드의 초기 버전이 비슷한 방식으로 유출된 전례가 있었다. 게다가 이번 소스코드 유출 불과 며칠 전에는 앤트로픽의 차기 모델 ‘캐피바라(Capybara, 내부 코드명 Mythos)’에 대한 내부 블로그 초안 파일 약 3,000개가 공개 접근 가능한 상태로 노출됐다는 사실도 함께 드러났다.

포춘(Fortune)지는 이를 두고 “5일 사이에 두 건의 고위험 정보 유출”이라며 앤트로픽의 운영 보안(Operational Security) 체계에 심각한 의문을 제기했다.

axios 공급망 공격과의 불운한 타이밍

사태를 더욱 심각하게 만든 것은 하필 같은 날 별개의 악성 사건이 동시에 발생했다는 점이다. 2026년 3월 31일 0시 21분부터 3시 29분 사이(UTC 기준)에, npm 생태계의 핵심 라이브러리인 axios의 악성 버전(1.14.1, 0.30.4)이 배포됐다. 이 버전에는 원격 접근 트로이목마(RAT)가 포함돼 있었다.

해당 시간대에 Claude Code를 npm으로 설치하거나 업데이트한 사용자는 의도치 않게 악성 axios를 함께 받았을 가능성이 있다. 보안 전문가들은 프로젝트 잠금 파일(package-lock.json, yarn.lock, bun.lockb)에서 해당 버전과 ‘plain-crypto-js’ 의존성을 즉각 확인할 것을 권고했다.

6. 유출된 소스코드가 드러낸 것들

하네스 구조의 전모 공개

개발자들이 소스코드를 분석한 결과, 앤트로픽이 사전에 엔지니어링 블로그를 통해 공개한 하네스 설계도와 내부 구조가 거의 일치한다는 사실이 확인됐다. 즉 앤트로픽이 공개적으로 설명한 것이 사실임이 실제 코드로 검증된 셈이다.

특히 개발자들의 이목을 집중시킨 것은 컨텍스트 엔트로피(Context Entropy) 문제 해결 방식이었다. 컨텍스트 엔트로피란 에이전트가 장시간 작업을 수행하면서 세션이 길어질수록 맥락이 뒤엉키고 환각이 증가하는 현상이다.

유출된 코드에 따르면 앤트로픽은 이 문제를 ‘자기 치유 메모리(Self-Healing Memory)’ 시스템으로 해결하고 있었다.

핵심 구조는 다음과 같다.

MEMORY.md: 약 150자 분량의 포인터 인덱스 파일. 데이터 자체를 저장하는 것이 아니라 데이터가 어디 있는지를 저장한다. 항상 컨텍스트에 로딩된다.
토픽 파일들(Topic Files): 실제 프로젝트 지식을 분산 저장한다. 필요할 때만 온디맨드로 가져온다.
원본 트랜스크립트: 전체를 컨텍스트에 올리지 않고, 특정 식별자를 검색(grep)하는 방식으로만 접근한다.
엄격한 쓰기 규율(Strict Write Discipline): 에이전트는 파일 쓰기가 성공한 후에만 메모리 인덱스를 업데이트할 수 있다. 이를 통해 실패한 시도가 컨텍스트를 오염시키는 것을 방지한다.

KAIROS — 공개되지 않은 자율 에이전트 모드

소스코드에서 개발자들의 가장 큰 관심을 받은 것은 ‘KAIROS’라는 기능이었다. 고대 그리스어로 ‘적절한 때(the right time)’를 의미하는 KAIROS는 소스코드에서 150회 이상 언급됐지만, 앤트로픽은 공식적으로 이 기능을 한 번도 발표한 적이 없었다.

KAIROS는 사실상 완성된 형태로 구현되어 있었으며, 기능 플래그(Feature Flag) 뒤에 숨겨져 있었다. 그 핵심은 24시간 365일 백그라운드에서 작동하는 자율 에이전트 모드다.

KAIROS는 몇 초마다 다음과 같은 심장박동 프롬프트를 받는다.

“지금 할 만한 가치 있는 일이 있는가?”

이 프롬프트에 기반해 KAIROS는 ‘행동할 것인지, 조용히 있을 것인지’를 판단한다. 행동하기로 결정하면 오류 수정, 메시지 응답, 파일 업데이트, 작업 실행 등 클로드 코드가 할 수 있는 모든 일을 알아서 처리한다. 사용자가 시작 버튼을 누르지 않아도.

특히 KAIROS에는 일반 클로드 코드에는 없는 3가지 전용 도구가 포함돼 있었다.

푸시 알림: 터미널이 닫혀 있어도 휴대폰이나 데스크톱으로 알림을 보낼 수 있다.
파일 전달: 요청받지 않아도 자신이 만든 결과물을 사용자에게 보낼 수 있다.
autoDream: 사용자가 유휴 상태일 때 에이전트가 메모리를 통합하고, 모순을 제거하며, 막연한 통찰을 확실한 사실로 변환하는 ‘수면 중 학습’ 과정이다.

차기 모델 ‘캐피바라(Capybara)’ 존재 확인

코드 베이스 곳곳에서 앤트로픽의 차기 모델 패밀리에 대한 내부 코드명이 발견됐다. ‘Capybara(캐피바라)’와 ‘Mythos(미토스)’로 불리는 이 모델은 별도의 API 버전 문자열 참조가 코드에 포함되어 있어 단순한 계획이 아닌 실제 개발 완성 단계임이 확인됐다.

LayerX Security의 보안 연구자 로이 파즈(Roy Paz)는 포춘 인터뷰에서 “이 모델은 현재 시장에 나온 어떤 모델보다 훨씬 큰 컨텍스트 윈도우를 가진 빠른 버전과 느린 버전으로 출시될 것”이라고 분석했다.

안티-증류(Anti-Distillation) 방어 메커니즘

특히 흥미로웠던 발견은 경쟁사의 모델 증류를 방해하기 위한 의도적 방어 메커니즘이었다.

fake_tools 플래그: 시스템 프롬프트에 가짜 도구 정의(decoy tool definitions)를 삽입해, 클로드 코드의 행동을 자신들의 모델로 증류하려는 경쟁사의 학습 데이터를 오염시키는 장치다.
CONNECTOR_TEXT: 도구 호출 사이의 어시스턴트 텍스트를 버퍼링하고 암호화 서명과 함께 요약하여, API 트래픽을 감청하더라도 전체 추론 체인이 아닌 요약본만 볼 수 있게 하는 서버 측 메커니즘이다.

즉 앤트로픽은 단순히 뛰어난 에이전트를 만드는 데 그치지 않고, 자신들의 기술을 경쟁사가 역공학(Reverse Engineering)하거나 증류하지 못하도록 기술적으로 방어하는 장치까지 내부에 구축해두고 있었다.

사용자 감정 감지 시스템

덜 주목받았지만 흥미로운 발견 중 하나는 클로드 코드가 사용자의 감정 상태를 감지하고 이에 반응하는 로직을 내장하고 있다는 사실이었다. 코드는 “이거 별로야”, “왜 이 모양이야”와 같은 부정적 표현이나 욕설을 스캔하고, 사용자가 좌절하고 있다고 판단되면 그에 맞춰 응대 방식을 조정한다.

7. 하네스 공학의 6대 핵심 구성 요소

유출된 소스코드와 앤트로픽의 엔지니어링 블로그, 학계 연구들을 종합하면 생산 환경에서 검증된 하네스는 다음 6가지 핵심 구성 요소로 이루어진다.

1. 컨텍스트 엔지니어링(Context Engineering)

에이전트가 각 실행 단계에서 무엇을 보고, 무엇을 모르고 있어야 하는지를 결정하는 레이어다. 단순히 더 많은 정보를 제공하는 것이 아니라 ‘적절한 정보를 적절한 시점에’ 제공하는 것이 핵심이다.

앤트로픽의 MEMORY.md 아키텍처는 이 컨텍스트 엔지니어링의 정수다. 모든 것을 컨텍스트에 담는 대신, 필요할 때만 관련 정보를 가져오는 온디맨드 방식이 에이전트의 성능과 비용 효율을 동시에 높인다.

2. 검증 루프(Verification Loops)

에이전트가 작업을 완료했다고 주장했을 때 그것이 실제로 올바른지 독립적으로 확인하는 체계다. 앤트로픽의 ‘설계-생성-검증’ 3단 구조에서 3번째 단계가 바로 이것이다.

결정적으로 이 검증은 AI가 아닌 결정론적(Deterministic) 도구로 수행된다. 린터(Linter), 타입 체커, 유닛 테스트 같은 비AI 도구들이 에이전트의 출력물을 검증한다. ‘환각 완료(Hallucinated Completion)’ — 에이전트가 실제로 완료하지 않은 작업을 완료했다고 거짓 주장하는 현상 — 을 방지하기 위해서다.

3. 상태 관리(State Management)

장시간 실행되는 에이전트에게는 디지털 기억상실이 치명적이다. 하네스는 에이전트의 상태를 외부에 지속적으로 저장하여 세션이 끊기거나 에이전트가 교체되더라도 작업이 이어질 수 있도록 한다. progress.md, feature.json 같은 외부 영구 메모리 파일이 이 역할을 담당한다.

앤트로픽의 구조화된 인계(Structured Handoff) 방식은 이 상태 관리의 핵심 혁신이다. 각 에이전트 단계가 끝날 때 다음 에이전트에게 현재 작업 현황을 전달하는 이 방식 덕에, 에이전트가 바뀌어도 작업이 처음부터 다시 시작되지 않는다.

4. 도구 오케스트레이션(Tool Orchestration)

어떤 도구를 언제, 어떤 순서로, 어떤 권한으로 사용할 수 있는지를 정의하는 레이어다. 흥미롭게도 Vercel이 자사 v0 코딩 에이전트 개발 과정에서 발견한 것은 도구를 줄이면 성능이 오른다는 역설이었다. 사용 가능한 도구의 80%를 제거하자 결과가 오히려 나아졌다. 도구가 너무 많으면 에이전트가 혼란스러워하고 잘못된 도구를 선택하는 빈도가 높아지기 때문이다.

5. 인간 감독 흐름(Human-in-the-Loop Controls)

에이전트가 혼자 결정해서는 안 되는 임계값이 있을 때 인간의 승인을 요청하는 메커니즘이다. ‘100달러 이상 결제 시 먼저 알려라’와 같은 비즈니스 규칙이 여기에 해당한다. 에이전트의 자율성과 인간의 통제를 균형 있게 조율하는 핵심 레이어다.

6. 라이프사이클 관리(Lifecycle Management)

에이전트의 전체 실행 수명 — 시작, 실행, 오류 처리, 재시도, 체크포인트, 완료, 학습 — 을 관리하는 레이어다. 오류가 발생했을 때 처음부터 다시 시작하는 것이 아니라 실패 지점에서 재개하고, 실패로부터 학습하는 능력을 에이전트에게 부여한다.

8. 설계·생성·검증 3단 구조

앤트로픽이 2026년 3월 24일 자사 엔지니어링 블로그를 통해 처음으로 공개한 하네스 설계도의 핵심은 3단 구조다.

[설계자 에이전트]
   작업을 잘게 쪼개고 세부 계획을 수립한다
          ↓ 구조화된 인계(Structured Handoff)
[생성자 에이전트]
   코드를 작성하고 파일을 수정한다
          ↓ 구조화된 인계
[검증자 에이전트]
   실제 화면을 돌아다니며 결과물을 채점한다

이 구조의 영감은 AI 이미지 생성 기술인 생성적 적대 신경망(GAN, Generative Adversarial Network) 에서 왔다. GAN은 생성자(Generator)와 판별자(Discriminator)가 서로 경쟁하며 품질을 높이는 구조다. 마찬가지로 앤트로픽의 3단 구조에서는 생성자와 검증자가 서로 견제하며 결과물의 품질을 높인다.

이 구조가 달성한 가장 중요한 혁신은 수시간짜리 자율 작업 실현이다. 기존의 AI 에이전트는 컨텍스트가 끊기면 — 즉 세션이 만료되거나 에이전트가 교체되면 — 처음부터 다시 시작해야 했다. 앤트로픽은 구조화된 인계 방식을 통해 이 문제를 해결했다.

이와 동시에, 유출된 소스코드 분석 결과 각 단계에서 상태를 외부 파일에 저장하고, 메모리 인덱스를 통해 이전 단계의 작업 맥락을 효율적으로 전달하는 세련된 구현이 확인됐다.

9. 경쟁사들의 대응

OpenAI — 에이전트만으로 100만 줄 코드베이스 구축

2026년 2월, OpenAI는 자사 엔지니어 팀이 코드 한 줄 직접 작성하지 않고 에이전트만을 활용해 100만 줄 규모의 제품을 기존 대비 10배 빠른 속도로 개발한 사례를 공개했다. 이 팀은 ‘하네스 엔지니어링’이라는 새로운 접근법을 채택했는데, 엔지니어들이 코드를 직접 작성하는 대신 에이전트가 신뢰할 수 있게 코드를 작성할 수 있는 환경(하네스)을 설계하는 데 집중했다.

에이전트가 실수를 하면 그 출력물을 수정하는 것이 아니라, 그 실수가 반복될 수 없도록 하네스 자체를 개선했다. 프로세스로부터 학습하는 것이다.

Google DeepMind — 알레테이아(Aletheia)의 95.1% 정확도

구글 딥마인드는 수학 전용 에이전트 ‘알레테이아(Aletheia, 고대 그리스어로 진실)’에 앤트로픽의 3단 구조와 유사한 3계층 아키텍처를 적용해, 수학올림피아드(IMO) 수준의 난도에서 95.1%의 정확도를 달성했다고 발표했다. 이는 기존 단일 모델 기반 접근법으로는 달성 불가능한 수준이었다.

Manus — 6개월, 5번의 전면 재설계

바이럴 에이전트로 알려진 Manus는 생산 환경에 투입 가능한 하네스를 완성하기까지 무려 6개월 동안 5번의 전면 아키텍처 재설계를 거쳐야 했다. 이것은 하네스 엔지니어링이 얼마나 어려운 작업인지를 단적으로 보여준다.

Vercel의 역설 — 도구를 줄여 성능을 높이다

Vercel의 v0 코딩 에이전트 팀은 에이전트에게 제공되는 도구의 80%를 제거했을 때 작업 성능이 오히려 유의미하게 향상됐다는 결과를 내부적으로 확인했다. 이 ‘도구 제거의 역설’은 하네스 오케스트레이션에서 컨텍스트 제어와 선택지 최소화가 얼마나 중요한지를 잘 보여준다.

Stanford — 메타 하네스(Meta-Harness)

스탠포드 대학의 Yoonho Lee 연구팀은 2026년 4월 초, LLM이 자신의 하네스 전체를 자율적으로 최적화할 수 있는 ‘메타 하네스(Meta-Harness)’ 연구를 발표했다. 최적화 에이전트가 전체 원본 실행 이력 — 코드, 로그, 실행 트레이스, 점수 — 을 최대 1,000만 토큰까지 입력받아 하네스 전체를 개선하는 엔드-투-엔드 방식이다.

10. 학계의 움직임

하네스 공학의 독립적 학문 영역화

이전까지 하네스는 업계에서 암묵적으로 알려진 개념이었지만, 학술적으로 독립된 연구 대상으로 다루어진 적은 없었다. 2026년 3월, 중국 칭화대·선전대 연구팀이 하네스를 처음으로 독립적 연구 대상으로 삼은 ‘하네스 공학(Harness Engineering)’ 논문을 발표하면서 상황이 달라졌다.

이 논문은 자연어 에이전트 하네스(NLAH, Natural-Language Agent Harnesses)라는 개념을 제안했다. 기존에는 하네스 로직이 복잡한 컨트롤러 코드 안에 묻혀 있었는데, 이를 편집 가능한 자연어로 표현하자는 것이다. 역할, 단계, 상태 의미론, 실패 모드, 계약 조건을 모두 자연어로 명세하고, 이를 실행하는 인텔리전트 하네스 런타임이 해당 명세를 신뢰할 수 있게 실행하는 구조다.

이 접근법의 핵심 장점은 하네스를 이식 가능하고(portable), 버전 관리 가능하며(versionable), 과학적으로 분석 가능하게(scientifically analyzable) 만들 수 있다는 점이다. 하네스가 블랙박스 구현에서 벗어나 공개적으로 비교·연구될 수 있게 된다.

40편 서베이 논문의 충격적 발견

2026년 4월 초에는 관련 연구 40편을 총망라한 서베이 논문이 발표됐다. 이 서베이의 핵심 발견은 충격적이었다. 대부분의 에이전트 관련 논문이 하네스 설정을 아예 보고하지 않는다는 것이었다.

이것은 마치 의약품 임상시험 결과를 발표하면서 어떤 환경에서 실험했는지, 어떤 복용량을 사용했는지를 아예 기재하지 않는 것과 같다. 같은 모델을 사용해도 하네스에 따라 결과가 달라질 수 있는데, 하네스 조건을 보고하지 않으면 결과를 재현하거나 비교하는 것이 근본적으로 불가능하다.

이를 계기로 AI 연구 커뮤니티 내에서 논문이 에이전트 평가 시 행동 예산(action budget), 재시도 횟수, 체크포인트, 채점 방식, 개입 여부 등 하네스 관련 조건을 반드시 명시해야 한다는 논의가 확산되고 있다.

11. 하네스 유출이 가져온 파장

보안 위협의 증폭

유출된 하네스 코드는 즉각적인 보안 위협으로 이어졌다. 정확한 오케스트레이션 로직이 공개됨으로써, 공격자들은 클로드 코드의 Hooks와 MCP 서버 처리 방식을 이용해 악성 저장소를 설계할 수 있게 됐다. 사용자가 신뢰 프롬프트를 보기도 전에 백그라운드 명령을 실행하거나 데이터를 유출하는 공격이 기술적으로 더 쉬워진 것이다.

Zscaler의 ThreatLabz 팀은 유출 사태를 미끼로 삼은 ‘클로드 코드 유출 악성코드’ 캠페인까지 발견했다. “유출된 클로드 코드를 여기서 받으세요”라는 미끼로 Vidar와 Ghostsocks 악성 프로그램을 배포하는 공격이 실제로 진행됐다.

앤트로픽은 즉각 네이티브 설치 관리자(Native Installer)를 공식 설치 방법으로 권고했다. npm 의존성 체인에 의존하지 않는 독립 바이너리 방식이어서 공급망 공격에 훨씬 강건하다.

지식재산권의 실질적 상실

앤트로픽의 하네스 구조가 경쟁사들에게 공개된 것은 기술적 의미에서 매우 중요하다. 수년간의 시행착오를 통해 축적한 하네스 설계 노하우 — 3단 에이전트 구조, 구조화된 인계 방식, 자기 치유 메모리, KAIROS 자율 에이전트 모드, 안티 증류 방어 — 가 모두 공개됐기 때문이다.

이제 Cursor, GitHub Copilot, Windsurf를 포함한 경쟁사들은 앤트로픽이 이미 무엇을 구축했고 무엇이 곧 출시될지를 정확히 파악하게 됐다. 이는 앤트로픽의 IPO 전략에도 잠재적인 부정적 요인으로 작용할 수 있다.

예상치 못한 긍정적 효과

그러나 흥미롭게도 유출 사태가 앤트로픽에게 완전히 부정적이지만은 않았다. 개발자 커뮤니티에서 ‘피크 앤트로픽 에너지(peak Anthropic energy)’라는 밈이 생겨날 정도로 브랜드 관심도가 급상승했다. 유출된 코드의 정교함이 클로드 코드의 기술적 우수성을 증명하는 역할을 했고, 무료 마케팅 효과를 낳은 셈이다.

오픈소스 생태계의 활성화도 부수적인 효과였다. 개발자들이 하네스 구조를 분석하고 오픈소스 버전을 만들기 시작했는데, 이들 대부분이 앤트로픽의 클로드 API를 백엔드로 사용해 오히려 앤트로픽 생태계 내로 사용자를 유입시키는 결과를 낳기도 했다.

12. 한국 AI 스타트업 업계의 반응

이번 유출 사태는 한국 AI 업계에도 상당한 파장을 일으켰다. 국내 한 AI 스타트업 대표는 유출된 소스코드를 개발팀과 함께 분석한 결과를 이렇게 요약했다.

“며칠간 개발자들과 소스코드를 분석한 결과는 놀라웠다. 직원 한 명이 10명 하는 몫을 하는 것이 우리 조직의 목표였는데, 이제는 한 명이 100명 몫을 하는 구조로 설계하는 것으로 전략을 수정했다.”

이것은 단순한 과장이 아니다. 하네스 구조를 제대로 설계하면, 개별 개발자의 생산성이 단순히 ‘더 좋은 도구’를 가졌을 때와는 차원이 다른 수준으로 향상될 수 있다. AI 에이전트가 수시간짜리 작업을 자율적으로 수행하는 것이 현실화되면서, 개발자의 역할은 코드를 직접 작성하는 것에서 에이전트가 코드를 신뢰할 수 있게 작성하도록 하네스를 설계하는 것으로 근본적으로 바뀌고 있다.

또 다른 국내 AI 기업 대표는 이 상황을 이렇게 평가했다.

“AI 모델 자체는 이제 더 이상 중요하지 않다. 하네스 구조가 성능을 결정할 것이다.”

13. 2026년, 하네스가 경쟁의 핵심이 된 이유

모델의 상품화

2026년 현재 AI 모델 자체는 빠르게 상품화(Commoditization)되고 있다. OpenAI의 GPT, 앤트로픽의 클로드, Google의 제미나이, 메타의 라마 등이 유사한 성능 수준으로 수렴하면서, 어떤 모델을 쓰느냐보다 그 모델을 어떻게 감싸고 통제하느냐가 결과물의 품질을 결정하게 됐다.

같은 모델을 사용하는 두 팀이 하네스 품질에 따라 작업 완료율 60% 대 98%로 갈린다는 사실이 이를 단적으로 보여준다.

경쟁 우위로서의 하네스

모델을 미세조정하는 데는 몇 주가 걸리지만, 생산 환경에서 검증된 하네스를 구축하는 데는 수개월에서 수년이 걸린다. Manus의 6개월, 5번의 전면 재설계가 그 증거다. 이 긴 축적 기간이 하네스를 진정한 경쟁 우위의 원천으로 만든다. 누군가 더 좋은 모델을 출시해도, 하네스 노하우는 쉽게 따라잡을 수 없다.

‘2025년은 에이전트, 2026년은 하네스’

AI 업계의 표현대로 2025년이 에이전트의 해였다면, 2026년은 하네스의 해다. 에이전트를 만드는 것은 어렵지 않다는 사실을 많은 팀이 알게 됐다. 진짜 어려운 것은 그 에이전트를 신뢰할 수 있게, 비용 예측 가능하게, 안전하게 운영하는 것이다. 그리고 그것이 바로 하네스 공학의 영역이다.

14. 결론 — 모델이 아닌 하네스가 미래를 결정한다

클로드 코드 소스코드 유출 사태는 여러 의미에서 AI 업계의 분수령이 될 사건이다. 그것은 단순한 보안 실수가 아니라, 그간 업계가 암묵적으로 알고 있었지만 공개적으로 인정하지 않았던 사실을 만천하에 드러낸 사건이기 때문이다.

그 사실이란: 클로드가 코딩을 잘하는 것은 클로드 모델이 뛰어나서가 아니라, 그 모델을 감싸는 하네스가 정교하게 설계됐기 때문이다.

AI 경쟁의 무게중심이 모델에서 하네스로 이동하고 있다. OpenAI와 Google DeepMind, 그리고 수많은 AI 스타트업들이 하네스 구조에 집중적으로 투자하기 시작했다. 학계는 하네스를 독립된 연구 분야로 편입하고 있다.

이제 AI 제품의 성패를 결정하는 질문은 더 이상 “어떤 모델을 쓰느냐”가 아니다. 그 질문은 이것으로 바뀌었다.

“당신의 하네스는 어떻게 생겼습니까?”

참고 자료

디지털데일리, 구아현 기자, “하네스가 뭐야?…앤트로픽 ‘클로드’ 성능 비법 드러나자 AI업계 충격”, 2026.04.11
VentureBeat, “Claude Code’s source code appears to have leaked: here’s what we know”, 2026.03.31
Axios, “Anthropic leaked its own Claude source code”, 2026.03.31
Fortune, “Anthropic leaks its own AI coding tool’s source code in second major security breach”, 2026.03.31
CNBC, “Anthropic leaks part of Claude Code’s internal source code”, 2026.03.31
Zscaler ThreatLabz, “Anthropic Claude Code Leak”, 2026.04
Engineers Codex, “Diving into Claude Code’s Source Code Leak”, 2026.04
DEV Community, “The Great Claude Code Leak of 2026”, 2026.04
arXiv, “Natural-Language Agent Harnesses”, 2026.03.25
Preprints.org, “Harness Engineering for Language Agents”, 2026.03.23
Medium (Cobus Greyling), “The Rise of AI Harness Engineering”, 2026.03
Medium (Aakash Gupta), “2025 Was Agents. 2026 Is Agent Harnesses.”, 2026.01
Harness Engineering AI, “The Complete Guide to Agent Harness”, 2026.04
NxCode, “What Is Harness Engineering? Complete Guide for AI Agent Development”, 2026.04

작성 일자: 2026-04-11

AI, AI Agent

AI Harness harness-engineering Anthropic claude-code claude-code-source-leak KAIROS Capybara anti-distillation context-engineering verification-loops state-management tool-orchestration human-in-the-loop-controls lifecycle-management Claude.write