AI가 너무 잘 작동해서 회사가 망가졌다: 인텐트 엔지니어링(Intent Engineering)의 등장

게시 2026/02/28

By BLUEBUG

44 분읽는 시간

원문 출처
YouTube: The AI Worked Too Well (Nate, 2026)
Substack: Klarna saved $60 million and broke its company. The missing layer is what I’m calling intent engineering — Nate, 2026년 2월 24일
URL: https://natesnewsletter.substack.com/p/klarna-saved-60-million-and-broke

들어가며: “AI가 실패했다”와 “AI가 성공했다”가 동시에 사실일 수 있다

2025년 3분기 실적 발표에서 클라나(Klarna)의 CEO 세바스티안 시에미아트코프스키(Sebastian Siemiatkowski)는 자랑스럽게 발표했다. 자사의 AI 고객 서비스 에이전트가 이제 853명의 정규직 직원이 하던 일을 처리하고 있으며, 회사는 연간 6,000만 달러(약 800억 원)를 절약했다고. 심지어 연초 700명 분에서 853명 분으로 처리 용량이 증가했다. 수치만 보면 역사상 가장 성공적인 AI 도입 사례 중 하나로 보인다.

그런데 같은 CEO가 불과 몇 달 전인 2025년 5월, 블룸버그 인터뷰에서 정반대의 말을 했다. “비용이 너무 지배적인 평가 기준이 되면서 결과적으로 품질이 낮아졌다”고 공개적으로 인정한 것이다. 그리고 클라나는 해고했던 인간 상담원들을 다시 고용하기 시작했다.

이 두 이야기는 모순처럼 보이지만, 실제로는 같은 진실의 두 측면이다. AI는 의심할 여지 없이 훌륭하게 작동했다. 그러나 AI가 최적화한 목표가 틀렸다. 이것이 2026년 현재 엔터프라이즈 AI 분야에서 가장 중요한, 그리고 아직 해결되지 않은 문제다. AI의 실패와 AI가 잘못된 목표를 향해 성공하는 것 사이의 차이, 그리고 그 차이를 다루는 새로운 분야로서 인텐트 엔지니어링(Intent Engineering) 의 등장이 이 글의 주제다.

클라나 사례의 전말: 수치 뒤에 숨겨진 이야기

2024년 초, 클라나는 OpenAI 기술을 기반으로 한 AI 고객 서비스 에이전트를 출시했다. 결과는 놀라웠다. 첫 달에만 230만 건의 대화를 처리했고, 23개 시장, 35개 언어를 지원했다. 평균 응답 해결 시간은 11분에서 2분으로 단축되었다. 반복 문의 비율은 25% 감소했다. CEO는 4,000만 달러의 비용 절감을 예상했다.

표면적인 지표들은 완벽했다. 그러나 곧 고객들의 불만이 쏟아지기 시작했다. 답변이 획일적이고 기계적이며, 판단이 필요한 상황에서는 전혀 도움이 되지 않는다는 것이었다. 기업 내부적으로도 문제가 드러났다. 6,000만 달러를 절약했음에도 불구하고, 고객 서비스 및 운영 비용은 오히려 2025년 3분기에 5,000만 달러로 전년 동기 4,200만 달러에서 증가했다. 절약한 돈 이상이 다른 형태의 비용으로 새어나가고 있었던 것이다.

더 심각한 것은 평판 피해였다. 클라나는 AI 도입의 부작용을 보여주는 대표적인 공개 사례가 되어버렸고, 경쟁이 치열한 핀테크 시장에서 브랜드 신뢰가 훼손되었다. 결국 2026년 2월, 클라나는 완전히 다른 방향으로 전략을 선회했다. AI는 단순하고 표준화된 문의를 처리하고, 인간 상담원은 복잡하고 감정적으로 민감하거나 고가치 고객을 담당하는 “VIP 경험” 모델로 전환한 것이다. 흥미롭게도 이 인간 상담원들은 클라나의 기존 고객 베이스에서 직접 채용했다.

이 이야기를 “AI가 뉘앙스를 처리하지 못한다는 증거”로 읽는 것은 쉽다. 하지만 더 정확하고 더 중요한 해석이 있다. 클라나의 AI 에이전트는 티켓을 빠르게 처리하는 데 있어서는 탁월하게 성공했다. 문제는 그것이 클라나가 에이전트에게 주어야 했던 올바른 목표가 아니었다는 것이다.

클라나의 실제 조직적 목표는 “티켓을 빠르게 해결하라”가 아니었다. 진짜 목표는 “경쟁이 극심한 핀테크 시장에서 고객 평생 가치를 높이는 지속적인 관계를 구축하라”였어야 했다. 이 두 목표는 표면적으로 비슷해 보이지만, 실제 의사결정의 순간에는 극적으로 다른 행동을 요구한다.

5년 경력의 인간 상담원은 이 차이를 직관적으로 안다. 그녀는 언제 정책을 유연하게 적용해야 하는지, 고객의 말투가 이탈을 암시할 때 3분을 더 투자해야 하는지, 언제 효율이 옳은 선택이고 언제 관용이 옳은 선택인지를 안다. 이것은 클라나의 실제 가치관을 수년에 걸쳐 흡수했기 때문이다. 웹사이트에 적힌 가치관이 아니라, 관리자들이 매일 내리는 결정 속에, 베테랑들이 신입에게 전하는 이야기 속에, 진짜 중요한 순간에 리더십이 실제로 어떤 지표를 신경 쓰는지에 대한 불문율 속에 담긴 가치관을 말이다.

AI 에이전트는 이 중 아무것도 몰랐다. 프롬프트가 있었고, 컨텍스트가 있었지만, 인텐트(intent)가 없었다.

세 가지 엔지니어링 시대: 프롬프트 → 컨텍스트 → 인텐트

엔터프라이즈 AI의 발전을 이해하려면 세 가지 뚜렷한 단계를 구분해야 한다. 이 명명(naming)이 중요한 이유는, 우리가 무엇을 다루고 있는지 정확히 파악해야만 해결책을 찾을 수 있기 때문이다.

1단계: 프롬프트 엔지니어링 (Prompt Engineering)

프롬프트 엔지니어링은 AI 시대의 첫 번째 규율이었다. 개인적이고, 동기적이며, 세션 기반이었다. 채팅 창 앞에 앉아 지시문을 작성하고, 결과를 반복적으로 개선하는 방식이다. 가치는 개인에게 귀속되었고, “완벽한 프롬프트를 작성하는 방법”이라는 수천 개의 블로그 포스트가 쏟아졌다. 이 시대는 중요했지만, 본질적으로 개인 기술의 영역에 머물렀다.

2단계: 컨텍스트 엔지니어링 (Context Engineering)

2025년 9월, Anthropic은 컨텍스트 엔지니어링을 정의하는 기초적인 글을 발표했다. 핵심은 “고립된 지시문을 작성하는 것에서 AI 시스템이 작동하는 전체 정보 상태를 구성하는 것으로의 전환”이다. LangChain의 해리슨 체이스는 이를 더 직접적으로 표현했다. “모든 것이 컨텍스트 엔지니어링이다. LangChain에서 우리가 해온 모든 것을 이 용어도 모른 채 해온 것이다.”

컨텍스트 엔지니어링은 현재 업계가 집중하고 있는 영역이다. RAG(검색 증강 생성) 파이프라인 구축, MCP 서버 연결, 에이전트가 접근할 수 있도록 조직 지식을 구조화하는 것이 모두 여기에 속한다. 필요하지만 충분하지 않다.

3단계: 인텐트 엔지니어링 (Intent Engineering)

인텐트 엔지니어링은 세 번째 규율이며, 거의 아무도 아직 구축하고 있지 않은 영역이다. 컨텍스트 엔지니어링이 에이전트에게 “무엇을 알아야 하는가”를 알려준다면, 인텐트 엔지니어링은 에이전트에게 “무엇을 원해야 하는가”를 알려준다.

인텐트 엔지니어링은 조직의 목적을 시스템 프롬프트의 산문이 아니라, 에이전트가 자율적으로 의사결정을 내리는 방식을 형성하는 구조화되고 실행 가능한 매개변수로 인프라에 인코딩하는 실천이다. 클라나의 맥락에서 말하자면, “이 티켓을 90초 안에 해결할 수 있지만, 이 고객은 수년간 우리와 함께했으며 그의 말투는 좌절감을 나타낸다. 추가 시간을 들여라. 전문가를 연결하라. 목표는 고객 유지다”라고 AI에게 알려주는 층이다.

인텐트 격차: 세 가지 층에서 동시에 실패하고 있다

현재의 인텐트 격차는 서로 다른 고도에서 작동하는 세 가지 뚜렷한 층에 걸쳐 있다. 하나를 잘 구축하는 것은 도움이 되지만, 세 가지 모두를 올바르게 구축하는 것이 AI 도구를 보유한 조직과 AI 네이티브 조직의 차이를 만든다.

층 1: 통합된 컨텍스트 인프라

오늘날 에이전트를 구축하는 모든 팀은 자체적인 컨텍스트 스택을 만든다. 한 팀은 슬랙 데이터를 커스텀 RAG 파이프라인을 통해 연결하고, 다른 팀은 구글 독스를 벡터 스토어에 수동으로 내보내고, 세 번째 팀은 세일즈포스에 연결되지만 지라에는 연결되지 않는 MCP 서버를 구축했다. 그리고 네 번째 팀은 다른 세 팀이 존재한다는 것조차 모른다.

이것은 “섀도 에이전트” 문제라고 불리며, 초기 클라우드 시대의 섀도 IT 위기를 그대로 반영한다. 다만 위험이 훨씬 더 높다. 에이전트는 데이터에 접근할 뿐만 아니라 그것을 바탕으로 행동하기 때문이다.

Anthropic이 2024년 말에 도입하고 2025년 12월 Linux Foundation에 기증한 MCP(Model Context Protocol)는 현재로서는 표준화를 향한 가장 유망한 시도다. OpenAI, Google, Microsoft를 포함한 50개 이상의 엔터프라이즈 파트너가 이를 채택했으며, 월간 SDK 다운로드 수는 약 1억 건에 달한다. 그러나 프로토콜 채택과 조직적 구현은 완전히 다른 문제다. USB-C 표준이 있다고 해도 회사가 어떤 포트를 설치할지, 누가 유지 관리할지, 무엇을 연결할지 결정하지 않으면 아무 소용이 없다.

Deloitte의 2025년 조사에 따르면 거의 절반의 조직이 데이터 검색 가능성과 재사용성을 AI 자동화를 막는 최대 과제로 꼽았다. 핵심은 컨텍스트 인프라 구축이 기술적 문제가 아니라 건축적이고 정치적인 문제라는 것이다. 어떤 시스템을 에이전트가 접근할 수 있게 할 것인가? 부서 간에 에이전트가 볼 수 있는 컨텍스트를 누가 결정하는가? 영업팀의 슬랙 컨텍스트와 엔지니어링팀의 슬랙 컨텍스트는 완전히 다른 제도적 가정을 인코딩하고 있는데, 이를 어떻게 처리하는가?

층 2: 일관된 AI 워커 툴킷

오늘날 모든 사람이 자신만의 AI 워크플로를 운영하고 있다. 어떤 사람은 리서치에 Claude, 초안 작성에 ChatGPT를 쓴다. 또 다른 사람은 코딩에 Cursor, 팩트체크에 Perplexity를 쓴다. 세 번째 사람은 LangGraph를 이용한 커스텀 에이전트 체인을 구축했다. 네 번째 사람은 채팅 창에 복사-붙여넣기를 한다.

이 직원들 중 누구도 자신의 워크플로를 다른 사람이 전달받거나, 측정하거나, 개선할 수 있는 방식으로 설명할 수 없다. 이것이 중요한 이유는, 개인적인 AI 활용과 조직적인 AI 레버리지의 차이가 엄청나기 때문이다. 한 명의 훌륭한 직원을 두는 것과 모든 사람을 더 낫게 만드는 시스템을 갖추는 것의 차이다.

기존 워크플로에 AI를 얹는 것에서 얻는 30% 향상과, 워크플로 자체를 AI 역량을 중심으로 재설계할 때 얻는 300% 향상의 차이가 여기에 있다. 그리고 유창성(fluency)은 훈련만으로 확장되지 않는다. 공유 인프라를 통해 확장된다. 어느 개인이 슬랙을 갖고 있는지가 중요한 게 아니다. 에이전트가 50명의 슬랙 컨텍스트와 그들의 문서, 프로젝트 계획, 고객 데이터를 검색할 수 있는지가 에이전트가 개인 수준의 작업이 아닌 조직 수준의 작업을 할 수 있는지를 결정한다.

층 3: 인텐트 엔지니어링 고유 영역

이 층이 거의 확실히 당신의 비즈니스에 존재하지 않는 층이다. 그리고 가장 중요하면서 가장 새로운 것이 필요한 층이다.

OKR은 사람을 위해 설계되었다. 사람이 읽을 수 있는 목표를 인코딩하고, 우선순위, 트레이드오프, 가치, 예외에 대한 인간의 판단을 가정한다. 관리자가 직접 보고에게 “이번 분기에 중요한 것은 이것”이라고 말하고, 보고자가 수개월과 수년에 걸쳐 개발된 제도적 컨텍스트, 직업적 규범, 개인적 판단의 그물망을 통해 그 지침을 해석할 것이라고 신뢰한다.

에이전트에게는 이것이 전혀 없다. 에이전트는 컨텍스트 창에 넣지 않으면 회사의 OKR을 모른다. 리더십 팀이 선호하는 트레이드오프가 무엇인지, 에스컬레이션해야 할 결정과 자율적으로 내려야 할 결정의 경계가 어디인지를 모른다. 그리고 인간 직원과 달리, 에이전트는 6개월의 전사 회의, 복도 대화, 시니어 사람들이 모호한 상황을 처리하는 것을 보면서 회사 문화를 자연스럽게 흡수하지 않는다.

인간 직원이 회사에 합류할 때, 정렬은 수백 가지의 비공식적인 메커니즘을 통해 일어난다. 위키를 읽고, 슬랙에서 채팅하고, 판단력을 키우고, 누군가와 해피아워를 갖는다. 에이전트에게는 이 중 아무것도 작동하지 않는다.

따라서 조직은 대부분 존재하지 않는 것을 개발해야 한다. 조직적 인텐트의 기계 판독 가능한 표현이다.

이것이 요구하는 것은 다음과 같다. 최상위 층에는 에이전트가 해석하고 행동할 수 있는 목표 구조가 필요하다. “고객 만족도를 높여라”라는 인간이 읽을 수 있는 열망이 아니라, 우리 맥락에서 고객 만족을 나타내는 신호가 무엇인지, 그 신호를 포함하는 데이터 소스가 어디인지, 이를 개선하기 위해 어떤 행동을 취할 권한이 있는지, 어떤 트레이드오프를 결정할 권한이 있는지, 넘을 수 없는 경계가 어디인지를 에이전트가 알 수 있는 형태가 필요하다.

그 아래에는 위임 프레임워크(delegation frameworks) 가 필요하다. 원칙들이 의사결정 경계로 번역된 것이다. 아마존의 리더십 원칙이 인간에게 작동하는 이유는 인간이 맥락적 판단을 통해 “고객 집착”을 해석할 수 있기 때문이다. 에이전트에게는 그 원칙이 분해되어야 한다. 고객 요청 X가 정책 Y와 충돌할 때 해결 위계는 무엇인가? 데이터가 행동 A를 제안하지만 고객이 선호도 B를 표현했을 때 의사결정 논리는 무엇인가?

그리고 기반에는 실제로 루프를 닫는 피드백 메커니즘이 필요하다. 에이전트가 결정을 내릴 때, 그것이 조직적 인텐트와 정렬되었는가? 이것이 정확히 클라나에서 일어난 일이다. 에이전트는 측정할 수 있는 목표인 해결 속도를 최적화했다. 아무도 가장 중요한 목표들, 즉 관계 품질, 브랜드 신뢰, 고객 평생 가치를 인코딩하지 않았다. 그 목표들은 해고된 인간 상담원들의 머릿속에 살아있었고, 그들은 문을 나서면서 그 지식을 가지고 갔다.

마이크로소프트 코파일럿이 보여주는 같은 실패의 다른 버전

클라나가 특수한 사례라고 생각할 수 있다. 그러나 마이크로소프트 코파일럿(Microsoft Copilot)은 같은 인텐트 격차가 규모와 속도만 다를 뿐 동일하게 작동한다는 것을 보여준다.

마이크로소프트는 코파일럿에 수십억 달러를 투자하고, 모든 Office 애플리케이션에 AI를 내장했으며, 공격적인 엔터프라이즈 영업 캠페인을 시작했다. Fortune 500 기업의 85%가 코파일럿을 도입했다. 그러나 그 채택은 곧 벽에 부딪혔다.

Gartner 조사에 따르면, 코파일럿 파일럿을 완료한 조직 중 단 5%만이 2025년에 대규모 배포로 이전했다. 마이크로소프트 365의 4억 4,000만 명의 유료 구독자 중 실제 코파일럿 유료 사용자는 약 800만 명, 전환율로는 약 1.81%에 불과하다. 블룸버그는 마이크로소프트가 대부분의 영업사원이 목표를 달성하지 못한 후 내부 영업 목표를 삭감했다고 보도했다.

6자리 수 계약을 체결한 기업 내에서도 직원들이 저항했다. 엔지니어들은 조직이 코파일럿 라이선스를 다운그레이드하고 있으며, 직원들이 ChatGPT나 Claude 같은 다른 AI를 선호한다고 설명하는 레딧 스레드들로 가득하다. 사티아 나델라는 내부적으로 코파일럿의 Gmail, Outlook 연동이 “제대로 작동하지 않는다”고 인정했다.

표준적인 설명은 UX 문제와 모델 품질에 초점을 맞춘다. 이것들은 분명히 실제 문제다. 그러나 근본적인 문제가 아니다. 근본적인 문제는 조직적 인텐트 정렬 없이 AI 도구를 조직 전체에 배포하는 것은, 4만 명의 신입 직원을 고용하고 회사가 무엇을 하는지, 무엇을 가치 있게 여기는지, 어떻게 결정을 내리는지를 절대 알려주지 않는 것과 같다는 것이다. 많은 활동을 얻지만 생산성은 거의 얻지 못한다. AI 사용 지표가 대시보드에 나타나지만, 조직이 달성하려는 목표에 대한 실질적인 영향은 거의 없다.

왜 인텐트 엔지니어링은 아직 구축되지 않았는가

이것이 왜 아직 해결되지 않았는지에 대한 정직한 답변이 필요하다.

첫째, 진정으로 새롭다. 에이전트가 장기간에 걸쳐 자율적으로 실행될 수 없었을 때, 우리는 이것이 필요하지 않았다. 인간이 인텐트 층이었다. 에이전트가 조직적 인텐트를 이해할 필요가 없었는데, 인간이 바로 거기에 있었기 때문이다. 수주에 걸쳐 실행되고 곧 수개월에 걸쳐 실행될 장기 에이전트는 이 모델을 깨뜨리고 새로운 사고 방식을 요구한다.

둘째, 두 문화의 문제다. 조직 전략을 이해하는 사람들(임원)은 에이전트를 구축하는 사람들이 아니다. 에이전트를 구축하는 사람들(엔지니어)은 조직 전략을 이해하는 사람들이 아닌 경우가 많다. MIT 연구에 따르면 AI 투자는 여전히 주로 비즈니스 전체 리더십이 필요한 비즈니스 문제가 아니라 CIO를 위한 기술적 도전으로 여겨진다. 이 프레임이 인텐트 격차를 보장한다. CIO는 인프라를 구축할 수 있지만, 인텐트는 전체 리더십 팀이 함께 일하는 것에서 나온다.

셋째, 진정으로 어렵다. 조직적 인텐트를 명시적이고 구조화된 형태로 만드는 것은 극히 어렵다. 대부분의 조직은 이것을 해야 한 적이 없다. 그들의 목표는 슬라이드 덱, 1년에 한 번 성과 검토에서 참조되는 OKR 문서, 성과 검토에서 인용되지만 실제로 운영화되지 않는 리더십 원칙, 그리고 모호한 상황에서 무엇을 해야 하는지 아는 경험 많은 직원들의 암묵적 지식 속에 산다. 아무도 이 근육이 강하지 않다. 조직들이 그것을 한 번도 운동한 적이 없기 때문이다.

해결책은 어떻게 생겼나

해결책은 영감을 주는 비전이 아니라 건축적인 접근이어야 한다.

인프라 수준에서는 에이전트가 시스템, 도구, 모델 전반에서 안전하고 규모 있게 작동할 수 있도록 하는 구성 가능하고 벤더에 독립적인 아키텍처가 필요하다. MCP는 이를 위한 프로토콜 층의 하나지만, 조직적 구현에는 어떤 프로토콜도 대신해줄 수 없는 데이터 거버넌스, 접근 제어, 신선도 보증, 의미론적 일관성에 대한 결정이 필요하다. 이 문제를 잘 해결하는 기업들은 이것을 IT 프로젝트가 아니라 데이터 웨어하우스 전략처럼 핵심 전략적 투자로 다룰 것이다.

워크플로 수준에서는 조직적 AI 역량 맵이 필요하다. 어떤 워크플로가 에이전트 준비가 되어 있고, 어떤 것이 인간이 루프에 있는 에이전트 증강이고, 어떤 것이 인간 전용으로 남아 있는지에 대한 공유되고 살아있는 이해다. 이것은 컨플루언스에 저장되고 버려지는 정적 문서가 아니라, 에이전트 역량이 계속 개선되고 조직적 컨텍스트 인프라가 성숙해짐에 따라 발전하는 운영 시스템이다.

이 문제를 잘 처리하는 기업들은 새로운 역할을 만들게 될 가능성이 높다. AI 워크플로 아키텍트라고 불릴 수 있는 역할로, 엔지니어링, 운영, 전략 사이에 위치하며 매우 바쁜 사람이 될 것이다.

정렬 수준에서는 진정으로 새로운 것이 필요하다. 인간이 읽을 수 있는 조직 목표를 에이전트가 행동할 수 있는 매개변수로 변환하는 목표 번역 인프라다. 여기에는 의사결정 경계, 에스컬레이션, 가치 위계(에이전트가 트레이드오프를 해결하는 방법), 피드백 루프(시간이 지남에 따라 정렬 드리프트를 측정하고 수정하는 방법)가 포함된다.

Google의 에이전트 개발 킷(Agent Development Kit)은 기술적 수준에서 이것을 공식화하려는 가장 초기의 시도 중 하나다. 에이전트 컨텍스트를 작업 컨텍스트, 세션 메모리, 장기 메모리, 아티팩트의 뚜렷한 층으로 분리한다. Google DeepMind 연구자들의 최근 논문은 AI 에이전트 자율성의 5가지 수준을 제안했다. 운영자, 협력자, 컨설턴트, 승인자, 관찰자로, 각각 다른 인텐트 정렬 요구사항과 다른 인간 감독 모델을 가진다. 이것들은 단지 초기 스케치다.

경쟁은 인텔리전스가 아닌 인텐트를 향한 것이다

지난 3년간 AI 경쟁은 인텔리전스 경쟁으로 프레임되었다. 어느 모델이 최고인가? 어느 것이 최고의 벤치마크를 기록하는가? 어느 것이 가장 큰 컨텍스트 창을 가지는가? 그 프레임은 모델이 병목점이었을 때 의미가 있었다.

그러나 모델은 이제 대부분의 조직적 사용 사례에서 병목점이 아니다. Claude Opus 4.6이나 Gemini 3, GPT-5 같은 프론티어 모델들은 모두 비범하게 유능하다. 그들 간의 차이는 명확하고 구조화된 목표 정렬 인텐트를 부여하는 조직과 그렇지 않은 조직 간의 차이보다 훨씬 덜 중요하다.

경쟁은 인텐트 경쟁이다. 시스템에서 가장 스마트한 AI를 보유한 회사가 아니라, AI가 조직이 달성하려는 것을 가장 완전하고, 정확하고, 전략적으로 올바르게 이해하면서 작동할 수 있도록 하는 조직적 인프라를 구축한 회사가 승리한다.

평범한 모델과 탁월한 조직 인텐트 인프라를 가진 회사는, 프론티어 모델과 파편화되고 접근 불가능하며 정렬되지 않은 조직 지식을 가진 회사보다 매번 뛰어난 성과를 낼 것이다.

이것이 2026년에 가장 중요한 AI 투자가 모델 구독이 아님을 의미한다. 또 다른 코파일럿 라이선스도 아니다. 그것은 조직적 인텐트 아키텍처다. 회사의 목표, 가치, 의사결정 프레임워크, 트레이드오프 위계를 발견 가능하고, 구조화되고, 에이전트가 행동할 수 있게 만드는 것이다.

핵심 교훈과 실천적 시사점

클라나의 이야기는 “AI가 작동하지 않는다”는 이야기가 아니다. AI는 훌륭하게 작동했다. 그것이 문제였다. AI는 측정 가능한 목표를 최적화하는 데 너무 뛰어나서, 아무도 실제로 중요한 것들, 즉 신뢰, 관계, 브랜드를 파괴하고 있다는 것을 알아차리지 못했다. 해고된 700명의 인간 상담원들은 진정으로 중요했던 기관 지식을 가지고 나갔다. 절대 문서화되지 않았던 지식을. 인간은 그냥 알았다.

교훈은 에이전트가 할 수 없기 때문에 조직적 가치를 자연스럽게 흡수하도록 인텐트 층을 구축하는 것이다. 그리고 에이전트가 인간의 감독 없이 작동할 수 없다는 것을 인식하는 것이다. 에이전트를 다소 의존하기 어려운 행위자로 여기고, 인텐트 엔지니어링을 인코딩하고 성공적인 에이전틱 시스템을 유지하는 데 인간이 필요하다는 것을 인식하는 것, 그것이 에이전트를 프로덕션에서 실제로 구동하는 방법이다.

프롬프트 엔지니어링 시대는 “AI에게 어떻게 말하는가?”를 물었다. 컨텍스트 엔지니어링 시대는 현재 “AI가 무엇을 알아야 하는가?”를 묻고 있다. 인텐트 엔지니어링 시대는 진정으로 중요한 질문을 던지기 시작하고 있다. 조직은 생산적이기 위해 AI가 무엇을 원하게 해야 하는가?

인텐트 없는 컨텍스트는 목표물 없는 장전된 무기와 같다. AI 시스템을 구축하는 데 수년을 보냈다. 2026년은 그것을 조직적 인텐트를 향해 조준하는 법을 배우는 해다.

실천을 위한 2가지 프롬프트

프롬프트 1: 인텐트 감사 (Intent Audit)

다음 질문들을 에이전트나 AI 도구를 담당하는 팀과 함께 논의해보자.

“우리 에이전트가 현재 최적화하고 있는 목표들을 나열하라. 그런 다음 우리 조직이 실제로 중요하게 생각하는 목표들을 나열하라. 두 목록이 일치하는가? 불일치하는 부분은 어디인가?”

프롬프트 2: 위임 프레임워크 (Delegation Framework)

에이전트가 처리하는 실제 상황을 선택하여 다음을 명확히 정의하라.

“이 유형의 결정에서 에이전트는 무엇을 자율적으로 할 수 있는가? 무엇이 인간 검토를 유발해야 하는가? 우리 조직 가치의 관점에서 ‘좋은’ 결과는 어떻게 보이는가? 에이전트가 절대 넘어서는 안 되는 경계는 무엇인가?”

이 두 가지 연습이 당신의 조직이 인텐트 격차의 어느 지점에 있는지 명확하게 보여줄 것이다.

작성 일자: 2026-02-28
원문 출처: Nate’s Newsletter, YouTube 강의 “The AI Worked Too Well”
보강 자료: Klarna Q3 2025 실적 발표, Gartner 보고서, Bloomberg, CX Dive, Forrester 분석

AI, Material

AI prompt-engineering context-engineering intent-engineering enterprise-ai delegation-frameworks Claude.write