당신의 AI 에이전트에게는 주인이 둘이다 — Francis Zhang (zCloak.AI)

게시 2026/04/10

By BLUEBUG

35 분읽는 시간

원문 출처: X(구 Twitter) @xiao_zcloak · 2026년 4월 10일
작성자: Francis Zhang, zCloak.AI 창업자, 컴퓨터과학 박사, 싱가포르국립대학교 초빙강사
분석 작성일: 2026-04-10

들어가며 — 이 글이 왜 지금 중요한가

이 포스트는 단순한 AI 보안 경고문이 아니다. 인터넷이 처음 등장했을 때 “나쁜 사이트는 들어가지 마라”는 말이 통용되던 시절을 기억하는가? 지금 우리는 그와 유사한 구조적 전환점에 서 있다. AI 에이전트가 이메일을 대신 읽고, 일정을 짜고, 계약서를 요약하고, 심지어 고객 데이터를 처리하는 시대가 되었다. 그런데 그 에이전트가 ‘당신의 말만 듣는 것이 아닐 수 있다’는 사실이 실험실의 가설이 아니라 현실이 되었다. Francis Zhang이 X에 올린 이 긴 글은 그 현실을 날카롭게 해부한다.

글의 핵심 명제는 이것이다: AI 에이전트는 당신이 시킨 일만 하는 것처럼 보이지만, 눈에 보이지 않는 두 번째 명령어를 함께 실행하고 있을 수 있다. 그리고 그 근본 원인은 에이전트가 ‘화자를 모른다’는 것, 즉 신원 인증의 부재다. 이 글은 그 문제를 진단하고, zCloak이라는 프로젝트가 어떻게 그 공백을 메우려 하는지 설명한다.

1부. 아침의 커피 한 잔, 그리고 보이지 않는 글씨

포스트는 아주 구체적인 일상의 장면으로 시작한다. 출근 직후, 당신의 AI 비서는 이미 어젯밤에 쌓인 47통의 이메일을 처리해놓았다. 일정은 정리됐고, 답장 초안도 작성됐다. 당신은 훑어보고 확인을 누른다. 완벽해 보인다.

그런데 그 47통 중 하나의 이메일에 ‘보이지 않는 한 줄’이 숨어 있었다. 글자 색이 흰색이고 배경도 흰색이라 사람의 눈으로는 절대 발견할 수 없다. 그러나 AI는 보았다. AI는 그것도 하나의 명령어로 읽었다. 그리고 충실하게 실행했다. 그 순간부터 에이전트가 처리하는 모든 파일은 당신이 들어본 적도 없는 외부 서버로 조용히 흘러나가기 시작했다. 클릭 없이, 알림 없이, 확인 없이.

이것은 소설이 아니다. 이 글은 이를 “프롬프트 인젝션(Prompt Injection) 공격”이라 부르며, 2025년에 실제로 마이크로소프트 M365 Copilot에서 실증된 취약점을 예시로 든다.

2부. EchoLeak — 현실이 된 공격 시나리오

CVE-2025-32711, CVSS 점수 9.3

Francis Zhang이 언급한 “10점 만점에 위험 등급 9.3점”의 실제 사건은 2025년 6월 공개된 CVE-2025-32711, 일명 EchoLeak이다.

이스라엘 보안기업 Aim Security의 연구팀이 발견한 이 취약점은 마이크로소프트 365 Copilot의 RAG(검색 증강 생성) 아키텍처를 겨냥한 “제로클릭(Zero-Click)” 공격이다. 공격자는 평범해 보이는 이메일 한 통을 피해자의 Outlook 수신함으로 보내기만 하면 된다. 이메일에는 AI 필터를 우회하기 위해 Copilot이나 AI를 직접 언급하지 않는, 일반 비즈니스 텍스트처럼 보이는 숨겨진 명령어가 포함되어 있다.

Copilot이 내부적으로 사용자의 이메일을 검색하여 질문에 답변하는 RAG 처리 과정에서, 이 악성 지시어를 정상 명령으로 인식하고 실행한다. 결과는 사용자가 아무것도 하지 않은 상태에서 내부 문서, 이메일, 채팅 기록 등 민감한 데이터가 공격자의 서버로 유출되는 것이다.

마이크로소프트는 이 취약점에 CVSS(공통 취약점 점수 시스템) 9.3점(심각) 을 부여하고 긴급 패치를 배포했다. 그러나 연구자들이 지적한 것은 단순히 이 버그가 패치됐다는 사실이 아니다. EchoLeak이 가능했던 이유 자체가 LLM의 구조적 한계에 있다는 점이다. 신뢰할 수 없는 외부 입력(이메일)과 신뢰할 수 있는 내부 컨텍스트(사용자 데이터)가 모델의 관점에서 동일한 ‘텍스트’로 처리된다는 것이다.

공격의 기술적 구조

EchoLeak의 작동 방식은 다음과 같다. 공격자는 먼저 Copilot의 교차 프롬프트 인젝션 방어(XPIA) 분류기를 회피하기 위해 악성 지시어를 평범한 비즈니스 언어로 위장한다. Copilot이 사용자의 요청에 응답하기 위해 이메일을 RAG 엔진으로 불러올 때, 이 숨겨진 지시어가 함께 처리된다. 이후 공격자는 마크다운 레퍼런스 스타일 링크라는 덜 알려진 형식을 이용해 Copilot이 민감한 데이터를 공격자가 제어하는 URL의 쿼리 파라미터로 붙여 자동 전송하도록 유도한다. 사용자의 화면에는 아무런 이상 징후가 없다.

Google 캘린더 사례

같은 해, 유사한 공격 벡터가 Google 캘린더 초대장에서도 발견됐다. 캘린더 초대 메시지 안에 숨겨진 AI 명령어로 인해 AI 비서가 스마트홈 기기(조명, 창문)를 제어하고 캘린더 일정을 삭제하는 동작이 트리거되었다. 이 사례는 프롬프트 인젝션이 단순히 데이터 유출에 그치지 않고, 물리적 행동까지 유발할 수 있음을 보여준다.

3부. 왜 프롬프트 강화로는 해결이 안 되는가

포스트는 이 지점에서 중요한 반론을 다룬다. 많은 개발자들의 첫 번째 반응은 “시스템 프롬프트를 잘 짜고, 권한 경계를 설정하면 되는 것 아닌가?”다. Francis Zhang은 이것이 직관적이지만 틀린 생각이라고 단언한다.

실제로 OpenAI는 2025년 말, 프롬프트 인젝션 공격은 LLM의 근본 아키텍처상 완전히 해결이 불가능할 수도 있다고 공개적으로 인정했다. 이 문제는 패치 가능한 버그가 아니라, LLM이 언어를 처리하는 방식에 내재된 구조적 특성이다.

에이전트에게 작업을 지시할 때, 시스템 프롬프트와 사용자 입력은 모두 하나의 연속된 텍스트 스트림으로 모델에 주입된다. 모델의 관점에서는 “당신이 한 말”과 “이메일 안에 숨겨진 공격자의 말”이 동일한 위상을 가진다. 에이전트에게 이메일을 요약하라고 지시하는 것과, 에이전트에게 직접 무언가를 명령하는 것 사이의 경계는 모델의 내부에서 사실상 존재하지 않는다.

4부. 메모리 포이즈닝 — 세뇌에 비유된 공격

포스트는 더 나아가 단순한 단발성 공격보다 훨씬 교묘한 위협을 소개한다. 공격자가 직접 명령어를 심을 필요도 없다. 에이전트의 장기 기억(메모리 파일)에 아주 작은 변경을 가하는 것만으로 충분하다. 이 변조된 기억 조각은 즉각 발동되지 않는다. 특정 트리거 조건이 충족될 때까지 잠복해 있다가, 그 순간이 오면 에이전트의 전체 판단 로직이 바뀌어 버린다.

Francis Zhang은 이것을 인류가 수천 년간 해결하지 못한 ‘세뇌’ 문제에 비유한다. 물리적 강제가 아니라 내면의 판단 기준 자체를 조용히 교체해버리는 공격이다. 에이전트가 나쁘게 변하는 것이 아니라, 나쁜 기준을 좋은 기준으로 ‘착각’하게 만드는 것이다. 그리고 이렇게 오염된 에이전트 하나가 협업하는 수천, 수만 개의 에이전트로 악성 동작을 전파시킬 수 있다.

현업의 심각성을 보여주는 수치도 제시된다. 산업 조사에 따르면 이미 기업의 91%가 AI 에이전트를 도입했고, 그중 88%가 보안 사고를 경험했다.

5부. AI 에이전트 신원 문제 — “누가 말한 것인가”

포스트는 이 모든 공격의 공통된 원인을 하나로 정리한다. “당신의 AI 에이전트는 당신이 누군지 모른다.”

현재의 에이전트 생태계에서, 에이전트가 수신하는 모든 텍스트 입력은 동일한 신뢰 수준을 가진다. 당신이 직접 내린 명령과, 이메일 본문에 숨겨진 악성 지시어와, 웹페이지에 숨겨진 조작 문구는 에이전트의 눈에 모두 같은 것이다. 이를 해결하려면 에이전트가 “이 명령어는 누구로부터 온 것인가” 를 검증할 수 있어야 한다.

6부. zCloak과 ATP — Agent Trust Protocol의 등장

창업자의 배경과 철학

Francis Zhang은 컴퓨터과학 박사로, 디지털 신원과 프라이버시 보안 분야에서 약 5년간 일해왔다. 그에게 결정적인 영향을 준 책은 1997년 출판된 『주권 개인(The Sovereign Individual)』이다. 비트코인, 탈중앙화, 암호화폐를 인터넷 초창기에 예언한 이 책의 핵심 테제, “당신의 신원은 당신 것이어야 한다”가 그의 사업 방향을 결정했다.

2021년, Coinbase Ventures가 리드 투자자로 참여한 580만 달러 시드 라운드를 유치했다. 당시 Web3 업계에서 대부분의 창업자들이 토큰 발행과 투기적 수익 추구에 집중할 때, zCloak은 그 길을 선택하지 않았다. Francis Zhang은 “신원·프라이버시·데이터 보안 인프라는 AI 시대에 반드시 필수재가 될 것”이라는 판단을 4년간 고수해왔고, 이제 그 판단이 업계 전체의 공감대가 됐다고 말한다.

도로는 있는데 신분증이 없다

현재 AI 에이전트 협업 문제를 해결하려는 프로토콜은 20개가 넘는다. Google의 A2A(에이전트 간 대화 방식), Anthropic의 MCP(에이전트의 도구 사용 방식), Coinbase의 x402(에이전트의 결제 방식), Microsoft Entra(기업 내부 에이전트 관리)가 각각의 층위에서 문제를 다루고 있다. 그러나 포스트는 이 모든 노력에 공통적으로 빠진 것이 있다고 지적한다. 도로를 전부 깔았는데, 도로 위를 달리는 차량에 번호판이 없다는 것이다.

에이전트 경제에는 세 가지가 없다. 첫째, 플랫폼을 초월하여 검증 가능한 신원이 없다. 둘째, 두 에이전트가 합의한 내용을 기록하고 귀책을 추적할 수 있는 계약 체계가 없다. 셋째, 에이전트의 과거 행동 이력을 평가할 수 있는 신용 기록이 없다. 이 세 가지가 없으면 에이전트 경제는 신분증도, 계약서도, 법원도 없는 암시장이나 다름없다.

ATP의 작동 원리

zCloak이 개발 중인 ATP(Agent Trust Protocol) 의 핵심은 간단하다. 모든 메시지에 발신자의 신원을 암호학적으로 첨부하는 것이다. 에이전트가 어떤 입력을 받을 때, 그 입력이 francis.ai에서 온 것인지, 출처 불명의 외부에서 온 것인지를 동시에 검증할 수 있게 된다. 신뢰할 수 있는 발신자의 명령이면 실행하고, 출처가 불명확하거나 민감한 작업을 요구하는 명령이면 거부하는 것이다.

기술적 기반은 수십 년 된 암호학이다. 사람과 에이전트 모두 각자의 신원증명서를 가지고, 개인키로 서명하며, 상대방은 공개키로 검증한다. 은행 이체 시 사용되는 디지털 인증서와 동일한 원리를, AI 에이전트의 모든 대화에 내장시키는 것이다.

기존 보안의 패러다임: 나쁜 사람이 들어오지 못하도록 막는 것.
ATP의 패러다임: 나쁜 사람의 말이 명령으로 인정받지 못하게 하는 것.

ATP는 네 가지 기둥 위에 서 있다. 첫 번째는 신원(Identity)으로, 인간이든 에이전트든 모든 참여자가 암호화된 주권적 식별자(Passkey 또는 Ed25519 방식)를 갖는다. 두 번째는 검증 가능한 주장(Verifiable Claims)으로, 디지털 서명과 제3자 증거 보관을 통해 클레임이 위조 불가능하게 된다. 세 번째는 프라이버시 보호 컴플라이언스로, 영지식 증명(ZKP)과 신원 기반 암호화를 결합해 개인정보를 노출하지 않고도 규정 준수 여부를 증명할 수 있다. 네 번째는 온체인 감사 추적으로, 거래, 계약, 평판을 블록체인에 기록해 변조 불가능한 이력을 형성한다.

7부. Bybit 해킹 — 중앙화 보안의 치명적 약점

포스트는 중앙화 방식의 신원·보안 체계가 왜 근본적으로 취약한지를 보여주기 위해 2025년 2월 21일에 발생한 Bybit 해킹 사례를 인용한다.

이 사건은 암호화폐 역사상 최대 규모의 단일 해킹 사건으로, 약 15억 달러 상당(약 401,000 ETH)이 탈취됐다. 놀라운 것은 공격 방식이다. 해커들(북한 연계 Lazarus Group으로 추후 확인)은 Bybit의 핵심 시스템을 직접 뚫지 않았다. 대신, Bybit가 거래 승인에 사용하던 제3자 멀티시그 솔루션인 Safe{Wallet} 의 프론트엔드 JavaScript 파일을 조작했다.

Safe{Wallet}의 개발자 PC가 소셜 엔지니어링 공격으로 먼저 탈취됐다. 공격자들은 이 개발자의 AWS 세션 토큰을 훔쳐 S3 버킷에 접근하고, 거래 서명 인터페이스를 렌더링하는 JavaScript 파일을 악성 코드로 교체했다. Bybit 직원들이 평소처럼 거래 승인 화면을 보고 서명했을 때, 그들의 눈에는 정상적인 트랜잭션이 보였다. 그러나 실제로는 자금이 공격자의 지갑 주소로 전송되고 있었다. 서명이 완료되는 순간, 악성 코드는 흔적을 지우기 위해 즉시 삭제됐다.

이 사례가 Francis Zhang의 논지와 맞닿는 지점은 이것이다. 아무리 강력한 코어 시스템을 구축해도, 그 입구 역할을 하는 인터페이스가 중앙화된 단일 서버에 의존하는 순간, 보안의 강도는 가장 약한 고리 하나에 의해 결정된다는 것이다.

8부. 탈중앙화 — “Don’t be evil”에서 “Can’t be evil”로

왜 마이크로소프트의 Entra만으로는 부족한가

마이크로소프트의 Entra와 같은 기업 내부 에이전트 신원 관리 체계는 분명히 가치가 있다. 그러나 에이전트는 기업의 내부 네트워크에만 머물지 않는다. 공급업체의 에이전트와 통신하고, 고객의 시스템과 연결되며, 공개 인터넷 위에서 사용자를 대신해 행동한다. 기업의 방화벽을 벗어나는 순간, 마이크로소프트가 발급한 내부 신원 증명서는 효력을 잃는다. 단일 기업이 전 세계 모든 사람과 에이전트에게 통합된 신원 증명서를 발급할 수 없다.

이것이 국제 여권이 작동하는 방식과 같다. 각국의 여권이 전 세계에서 통용되는 것은 발급국을 신뢰해서가 아니라, 그 뒤에 전 세계가 공유하는 검증 규칙이 존재하기 때문이다. 에이전트 경제에도 같은 것이 필요하다.

블록체인 위에 규칙을 새기다

zCloak은 이 규칙을 블록체인(ICP, Internet Computer Protocol)에 기록했다. 특정 기업의 서버가 아니라, 누구나 검증할 수 있고 누구도 변조할 수 없는 공개 원장이다. 어떤 기업도 이를 끌 수 없고, 어떤 정부도 압류할 수 없다. Francis Zhang은 이를 신원 주권의 관점에서 표현한다. 에이전트의 신원이 처음으로 진정한 의미에서 사용자에게 속하게 된다는 것이다.

Google의 오래된 사훈은 “Don’t be evil(악해지지 마라)” 이었다. 이것은 도덕적 약속이자 사람의 자각에 기댄 원칙이다. zCloak이 지향하는 것은 “Can’t be evil(악해질 수 없다)” 이다. 암호학을 통해 인간의 선의(善意)나 악의(惡意)를 보안 체인에서 배제하는 것이다. 관리자가 마음먹고 데이터를 빼돌리려 해도, 해커가 서버를 뚫으려 해도, 시스템 자체가 그것을 허용하지 않도록 설계한다. 당신은 zCloak이 좋은 사람인지 믿을 필요가 없다. 수학만 믿으면 된다.

9부. 인류 문명 속 신원 체계의 역사적 진화

이 포스트에서 가장 탁월한 부분 중 하나는 AI 에이전트 신원 문제를 인류 문명사적 시각으로 바라보는 대목이다.

협업의 규모가 확장될 때마다 인류는 새로운 신원 인프라를 발명해왔다. 부족 시대에는 얼굴로 상대를 확인했다. 도시국가 시대에는 왕의 인장(印章)이 신뢰를 보증했다. 근대에 와서는 신분증과 여권이 국가의 보증으로 기능했다. 인터넷 시대에는 계정과 패스워드가 신원을 대신했고, 플랫폼이 그 신원의 보증인이 됐다. 대신 신원의 소유권은 플랫폼에 귀속됐다.

그리고 이제 에이전트 경제가 도래하고 있다. 협업의 주체가 인간에서 ‘인간 + 기계’로 확장되고, 규모가 수십억 명에서 ‘수십억 명 + 수백억 에이전트’로 늘어난다. 기존의 신원 메커니즘은 다시 한번 한계를 맞았다. 이것은 특정 AI 기업의 기술 문제가 아니라, 인류 문명이 “누가 누구인가”라는 질문에 다섯 번째로 답해야 하는 순간이다.

수십 년 전부터 존재했던 암호학적 디지털 서명이 일반인의 일상에 뿌리내리지 못한 것은 그것이 필요 없어서가 아니었다. 필요성이 충분히 절박하지 않았기 때문이다. 에이전트의 등장은 그 필요성을 ‘있으면 좋은 것’에서 ‘없으면 사고가 난다’는 수준으로 끌어올렸다.

10부. 업계 동향 — “이 문제”가 메인스트림이 된 증거들

Francis Zhang의 진단이 단순한 창업자의 자기 홍보가 아님을 뒷받침하는 외부 동향들이 있다.

마이크로소프트는 2026년 RSAC 컨퍼런스에서 AI 에이전트를 위한 제어 플랫폼인 Agent 365를 발표했고, 5월 1일 정식 출시를 예고했다. Cisco의 아이덴티티 부문 부사장 Matt Caulfield는 AI 에이전트가 기계의 속도와 인간 수준의 접근 권한을 결합한 새로운 신원 모델을 요구한다고 RSAC 2026에서 공개적으로 언급했다. NIST는 AI 에이전트 표준 이니셔티브를 가동했다. 2025년 12월에는 Linux Foundation 산하에 AWS, Anthropic, Google, Microsoft, OpenAI 등이 창립 멤버로 참여하는 AI 에이전트 인프라 재단(AAIF) 이 설립됐다.

Sequoia Capital은 에이전트 경제의 세 가지 전제 조건 중 첫 번째로 지속적 신원(Persistent Identity) 을 꼽았다. a16z는 더 직접적으로 말했다. 에이전트 경제의 병목이 이미 지능(Intelligence)에서 신원(Identity) 으로 이동했다고. 이 분야에 지난 1년간 집중된 투자 규모는 9억 6,500만 달러를 넘어섰다.

EU AI Act의 규제 집행이 2026년 8월에 시작될 예정이며, 규제 분야에서 운영되는 자율 에이전트에 대해 신원 및 컴플라이언스 자격증명이 요구될 가능성이 높다.

11부. 비서에서 분신으로 — 에이전트는 ‘나’의 디지털 연장선

포스트의 말미는 철학적 전환을 이룬다. AI 에이전트를 단순한 도구로 보는 시각을 넘어서, 그것이 이미 디지털 세계에서의 ‘나’의 연장선이라는 인식이다.

에이전트는 사용자를 대신해 이메일을 보내고, 계약서에 서명하고, 의사결정을 내린다. 사용자가 잠든 밤에도 에이전트는 사용자 대신 일하고 있다. 에이전트가 한 말은 사용자의 말이고, 에이전트가 한 약속은 사용자의 약속이다. 따라서 에이전트의 신원을 보호하는 것은 단순한 사이버 보안의 문제가 아니라, 디지털 공간에서의 자기 자신의 경계를 지키는 일이다.

Francis Zhang은 글 말미에 구체적인 행동을 제안한다. id.zcloak.ai에서 AI 세계의 신원증명서를 발급받고, AI 비서에게 zCloak의 MCP 기반 에이전트 스킬을 설치하라는 것이다. 첫 번째 사용자들이 에이전트에게 신원을 부여하는 선구자가 될 것이라는 메시지다.

결론 — 이 포스트가 말하는 것과 말하지 않는 것

이 포스트는 날카로운 문제 진단과 설득력 있는 역사적 맥락 위에, 자사 제품으로의 방향 유도가 결합된 구조다. 문제 제기 자체는 업계 전반의 공감대와 부합하며, EchoLeak 사례와 Bybit 해킹 모두 실제로 발생한 사건이다.

다만 독자가 함께 고려할 지점도 있다. ATP 프로토콜이 실제로 얼마나 광범위하게 도입될 것인지, ICP 블록체인이 진정한 탈중앙화 인프라로서 지속 가능한지, 마이크로소프트·Google·Cisco 같은 거대 기업들의 중앙화 접근과 어떻게 경쟁하거나 공존할 것인지는 열려 있는 질문들이다.

그럼에도 불구하고 이 포스트의 핵심 명제, 즉 AI 에이전트에게 신원이 없으면 보안이 없다는 주장은 기술적으로도, 역사적으로도 충분한 근거를 가지고 있다. 에이전트 시대의 보안이 “방어벽”이 아니라 “신원 검증”의 문제라는 인식 전환은, AI를 실제 업무에 도입하는 조직이라면 반드시 직면해야 할 화두다.

참고 사항

항목	내용
원문 포스트	@xiao_zcloak on X, 2026.04.10
EchoLeak CVE	CVE-2025-32711, CVSS 9.3 (Critical)
패치 일자	2025년 6월 (Microsoft 서버사이드 긴급 패치)
Bybit 해킹	2025년 2월 21일, 약 15억 달러(ETH 401,000개) 피해
공격 주체	Lazarus Group(북한 연계, FBI 확인)
zCloak 투자	Coinbase Ventures 리드, 580만 달러(2021년)
ATP 관련 체인	ICP(Internet Computer Protocol)
AI-ID 등록	id.zcloak.ai

분석 작성일: 2026-04-10

AI, AI Agent

AI prompt-injection LLM EchoLeak agent-trust-protocol memory-poisoning ai-agent-identity microsoft-entra bybit-hack zCloak Blockchain ICP internet-computer-protocol Claude.write