AI 역량 인식의 거대한 단층선: 왜 우리는 서로 다른 AI를 보고 있는가

게시 2026/04/10

By BLUEBUG

31 분읽는 시간

원문 출처: Andrej Karpathy 트윗 (2026년 4월 10일)
정리 및 해설: 최신 검색 정보를 바탕으로 상세 서술
작성일: 2026년 4월

서론: 같은 기술, 전혀 다른 세계를 경험하는 사람들

오늘날 AI를 둘러싼 대화를 보면, 마치 서로 전혀 다른 행성에서 온 사람들이 이야기를 나누는 것처럼 느껴질 때가 있다. 한쪽에서는 “AI가 아직도 그런 것도 못 해?”라며 비웃고, 다른 쪽에서는 “코드베이스 전체를 AI가 혼자 리팩토링해버렸어”라며 경이로움을 표현한다. 이 두 반응이 동시에 옳을 수 있을까? 놀랍게도, 그렇다. 그리고 이 역설을 이해하는 것이 2026년 현재 AI 기술의 본질을 파악하는 데 있어 가장 중요한 열쇠 중 하나다.

이 글에서 분석하는 원문 스레드는 바로 이 단층선, 즉 AI 역량에 대한 인식 격차를 날카롭게 포착하고 있다. Karpathy는 자신의 타임라인(TL, 소셜 미디어 피드)을 관찰하면서 사람들이 AI에 대해 두 개의 극명히 다른 집단으로 나뉜다는 사실을 발견했다. 그리고 이 현상이 단순한 의견 차이가 아니라 실제 기술적 현실이 만들어낸 구조적 문제임을 설명한다.

1부: 첫 번째 집단 — “AI는 별거 없더라”는 사람들

무료 ChatGPT 경험이 만든 고정 관념

Karpathy가 가장 먼저 지목하는 집단은, AI를 한 번쯤 써봤지만 그 경험이 “작년에 무료로 ChatGPT 써봤는데”로 대표되는 사람들이다. 이들은 AI에 대한 전반적인 인상을 주로 다음과 같은 경험에서 형성했다.

무료 플랜에서 제공되는 구형(deprecated) 또는 소형 모델을 사용
소셜 미디어(인스타그램 릴스, 유튜브 쇼츠 등)에서 AI가 황당한 실수를 저지르는 바이럴 영상을 시청
“카워시까지 걸어가야 해, 차 타고 가야 해?”처럼 극도로 단순한 질문에 OpenAI의 Advanced Voice Mode가 헛소리를 늘어놓는 장면을 목격

이 경험들은 분명히 실제이고, 그 영상 속 AI의 실수도 사실이다. 그러나 문제는 이 경험이 AI 전체, 특히 최신 세대의 에이전틱 모델의 역량을 대표한다고 착각하는 데 있다. 이는 마치 2000년대 초반 인터넷 익스플로러의 느리고 불안정한 경험을 바탕으로 “인터넷은 별로 쓸모없다”고 결론짓는 것과 같다. 당시에도 누군가는 초고속 광랜으로 완전히 다른 세계를 경험하고 있었을 것이다.

무료 모델과 최신 모델 사이의 실제 격차

이 집단이 경험한 AI의 한계는 모델의 ‘티어(tier)’와 ‘세대(generation)’에서 비롯된 것이다. 현재 AI 모델 시장은 대략적으로 다음과 같은 계층 구조를 가진다.

구형/무료 모델: 오래된 가중치를 가진 모델, 또는 경량화된 소형 모델. 추론 능력이 제한적이고, 컨텍스트 창이 작으며, 도구 호출(tool use)이나 에이전트 루프(agentic loop) 기능이 거의 없거나 제한된다.

최신 유료 프론티어 모델: OpenAI의 Codex(오픈AI 코덱스), Anthropic의 Claude Code(클로드 코드) 같은 에이전틱 코딩 모델. 수십만~수백만 토큰에 달하는 컨텍스트 창, 강력한 도구 호출, 자율적 작업 수행(autonomous task execution) 능력을 갖는다.

이 두 범주 사이의 격차는 단순히 “조금 더 똑똑하다”는 수준이 아니다. 질적으로 완전히 다른 종류의 능력이다. 전자가 질문에 답변을 생성하는 수준이라면, 후자는 컴퓨터 터미널을 손에 쥐고 스스로 계획을 세우고 코드를 실행하고 오류를 수정하며 수십 단계에 걸친 복잡한 작업을 완수한다.

2부: 두 번째 집단 — “AI 정신이상(AI Psychosis)”에 걸린 사람들

$200/월을 내는 것만으로는 충분하지 않다

원문의 핵심 통찰 중 하나는, 단순히 최고 가격의 플랜을 구독한다고 해서 AI의 최전선 역량을 목격할 수 있는 것이 아니라는 점이다. Karpathy는 이렇게 지적한다: 설령 월 200달러를 내고 최첨단 프론티어 모델을 쓴다 하더라도, 일반적인 검색, 글쓰기, 조언 구하기 등의 용도로만 사용한다면, 이 모델들이 가장 극적인 도약을 이룬 영역을 전혀 경험하지 못한 채 기술을 과소평가하게 된다.

가장 극적인 발전이 일어난 영역은 기술적으로 검증 가능한(verifiable) 도메인, 특히 프로그래밍, 수학, 과학적 추론이다. 반면 글쓰기 품질, 창의적 조언, 감성적 공감 같은 영역에서의 발전은 상대적으로 더디거나, 발전이 있어도 사람들이 체감하기 어렵다.

강화학습(RL)과 검증 가능한 보상 함수

이 불균등한 발전 패턴의 핵심 이유는 AI 훈련 방식, 구체적으로는 강화학습(Reinforcement Learning, RL) 의 특성에 있다. Karpathy는 이를 명쾌하게 설명한다.

강화학습이 제대로 작동하려면 검증 가능한 보상 함수(verifiable reward function) 가 필요하다. 즉, 모델이 어떤 행동을 했을 때 그것이 “맞다” 혹은 “틀리다”를 명확하게 판단할 수 있는 기준이 있어야 한다.

코딩은 이상적인 RL 훈련 환경이다. 코드를 작성하면 단위 테스트(unit test)가 통과했는지 여부가 즉각적으로 확인된다. “테스트 통과: Yes/No”라는 이진법적 신호가 존재한다. 이 신호를 수백만 번 반복하면서 모델은 점점 더 정확하게 문제를 푸는 법을 학습할 수 있다.

반면 글쓰기는 훨씬 복잡하다. “이 에세이가 좋은가?”라는 질문에 대한 답은 주관적이고, 맥락에 따라 다르며, 채점자마다 다르다. 명확한 Ground Truth가 없기 때문에 RL 신호가 흐릿하고, 학습이 그만큼 어렵다.

이것이 바로 코딩 분야에서 AI가 폭발적으로 발전한 반면, 일상적인 글쓰기나 대화 품질 개선은 상대적으로 느리게 진행된 이유다.

경제적 인센티브: 돈이 흐르는 방향

Karpathy는 두 번째 이유로 경제적 우선순위를 꼽는다. AI 기업들은 가장 큰 경제적 가치를 만들어내는 영역에 연구 자원을 집중한다. 그리고 현재 가장 큰 B2B(기업간 거래) 가치를 만들어내는 영역은 코딩이다.

기업들이 AI 코딩 에이전트에 수억 달러를 투자하는 이유는 명확하다. 소프트웨어 개발자 한 명의 연봉이 수십만 달러에 달하는 실리콘밸리에서, AI가 주니어 개발자 수준의 코딩 작업을 자동화할 수 있다면 그 절감 효과는 천문학적이다. Anthropic, OpenAI, Google DeepMind 모두 이 사실을 알고, 팀의 핵심 역량을 이 방향에 집중하고 있다.

반면 “AI가 더 공감 잘하는 글을 써주는 것”의 경제적 가치는 당장 측정하기가 어렵다. 그래서 상대적으로 자원 투입이 적을 수밖에 없다.

“AI 정신이상(AI Psychosis)” — Karpathy의 고백

두 번째 집단은 바로 이 최신 에이전틱 모델을, 전문적인 기술 도메인(프로그래밍, 수학, 연구)에서, 실제 업무에 활용하는 사람들이다. Karpathy는 이들이 겪는 경험을 “AI Psychosis(AI 정신이상)”이라는 강렬한 표현으로 묘사한다.

이 집단의 대표 인물이 바로 Andrej Karpathy다. OpenAI 공동 창립자이자 Tesla 오토파일럿을 이끌었던 그는 2026년 3월, 공개 인터뷰와 트윗을 통해 충격적인 고백을 했다. Fortune의 보도에 따르면, 그는 이렇게 말했다: “2025년 12월 이후로 코드를 한 줄도 직접 타이핑하지 않은 것 같다. 이것은 엄청난 변화다. 보통 사람들은 이 변화가 일어났다는 것도, 얼마나 극적인 것인지도 모를 것이다.”

그는 또한 자신이 AI가 무엇을 할 수 있는지를 파악하고 그 가능성을 한계까지 밀어붙이려 노력하면서 “정신이 나간(psychosis) 상태”에 있다고 표현했다. 이 “AI 정신이상”은 우월함에서 오는 것이 아니라, 기술의 발전 속도가 너무 빨라서 무엇이 가능하고 무엇이 불가능한지의 경계 자체가 매일 바뀌는 데서 오는 인지적 압도감이다.

3부: OpenClaw — 두 집단이 교차하는 역사적 순간

OpenClaw란 무엇인가?

Karpathy는 마지막에 “OpenClaw 모멘트가 그토록 크게 느껴진 이유는, 비기술적인 사람들의 거대한 집단이 처음으로 최신 에이전틱 모델을 직접 경험했기 때문”이라는 누군가의 말을 인용한다.

OpenClaw(구 Clawdbot, Moltbot)는 오스트리아의 개발자 Peter Steinberger가 2025년 11월에 처음 공개한 오픈소스 자율 AI 에이전트 플랫폼이다. Wikipedia에 따르면, 이 소프트웨어는 WhatsApp, iMessage 같은 메시징 앱을 주요 인터페이스로 사용하면서, 연결된 LLM(GPT, Claude 등)을 통해 사용자 컴퓨터의 파일에 접근하고, 브라우저를 실행하고, 이메일을 보내고, 캘린더를 관리하는 등의 자율적 작업을 수행한다.

2026년 초 GitHub에서 스타 수 24만 7천 개를 기록하며 폭발적으로 확산되었고, 중국 개발자들은 이를 WeChat 등 중국 메신저에 연동하는 버전을 만들었다. Tencent 같은 대기업도 OpenClaw 기반 서비스를 발표했다.

Karpathy의 “Dobby” — 에이전틱 AI의 생생한 예시

Karpathy는 자신의 OpenClaw 에이전트에 “Dobby”라는 이름을 붙였다. Fortune 보도에 따르면, Dobby는 현재 그의 집 전체를 관리한다. 음향 시스템, 조명, 보안, 블라인드, 냉난방, 수영장, 스파까지 — 이전에는 6개의 별도 앱으로 관리하던 것들을 이제는 WhatsApp에서 자연어로 메시지를 보내는 것만으로 제어한다. FedEx 트럭이 집 앞에 배달물을 두고 가면 Dobby가 보안 카메라로 이를 감지하고 Karpathy에게 메시지를 보낸다.

이것이 에이전틱 AI의 본질이다. 단순히 질문에 답변을 생성하는 것이 아니라, 여러 API를 순차적으로 호출하고, 결과를 추론하고, 복합적인 행동을 취하는 것. 어떤 단일 앱도 할 수 없는 일이다.

왜 OpenClaw가 “비기술적 사람들의 첫 에이전틱 AI 경험”이 되었나?

이전까지 에이전틱 AI를 경험하려면 상당한 기술적 지식이 필요했다. Claude Code나 OpenAI Codex를 효과적으로 사용하려면 터미널을 편하게 다루고, API 키를 설정하고, 에이전트에게 적절한 지시를 내리는 법을 알아야 했다. 이것은 대부분의 일반 사용자에게 높은 진입 장벽이었다.

OpenClaw는 이 진입 장벽을 극적으로 낮췄다. WhatsApp이나 iMessage — 이미 수십억 명이 매일 사용하는 앱 — 을 인터페이스로 삼았기 때문이다. 기술적 배경이 없는 사람도 평소에 메시지를 보내듯 AI 에이전트에게 지시를 내릴 수 있게 되었다. 그 결과, 처음으로 거대한 비기술적 집단이 “이게 진짜 AI구나”라는 경험을 하게 된 것이다.

4부: 두 집단이 서로 대화하지 못하는 구조적 이유

경험의 비대칭성

원문의 핵심 논지는 결국 이것이다: 두 집단이 서로를 이해하지 못하는 것은 어느 쪽이 멍청해서가 아니라, 경험 자체가 구조적으로 다르기 때문이다.

첫 번째 집단이 보는 AI는 진짜이다. Instagram 릴스에서 바이럴된 OpenAI Advanced Voice Mode의 황당한 실수는 실제로 일어났다. 그 모델은 정말로 “세차장까지 걸어가야 하나, 차 타고 가야 하나”라는 질문에 제대로 답을 못 했다. 하지만 이것은 오래된 또는 경량화된 모델이고, 회사 내에서조차 어느 정도 방치(orphaned)된 제품이다. 최신 최고 성능 모델의 역량을 대표하지 않는다.

두 번째 집단이 보는 AI도 진짜이다. Karpathy의 인터뷰에서 묘사된 것처럼, 전체 코드베이스를 한 시간 만에 재구조화하거나, 컴퓨터 시스템의 취약점을 찾아내고 익스플로잇하는 능력은 실제로 존재한다. 이것은 과장이 아니다. 하지만 이 능력은 최첨단 에이전틱 모델을 기술적 도메인에서 전문적으로 활용할 때만 목격할 수 있다.

“peaky capability” — 뾰족한 역량의 지형

Karpathy가 사용하는 표현 중 “peaky”라는 단어가 특히 인상적이다. AI의 역량은 평탄하게 분포된 것이 아니라, 특정 영역에서 극단적으로 뾰족하게(peaked) 솟아있다는 의미다. 일상적인 대화나 일반적인 작업에서는 아직도 실망스러운 실수가 나오지만, 코딩이나 수학 같은 특정 도메인에서는 인간 전문가를 압도하는 성능을 보인다.

Karpathy는 이 불균등성을 “jaggedness(들쭉날쭉함)”라고 표현했다. 같은 모델이 분산 시스템 문제는 완벽하게 해결하면서 파일 이름 하나는 엉터리로 짓는 것이 동시에 가능하다. “매우 뛰어난 시스템 프로그래머 PhD 학생과 대화하는 것 같으면서 동시에 10살짜리 아이와 대화하는 것 같다”는 그의 표현이 이 들쭉날쭉함을 정확히 포착한다.

5부: 이 현상의 더 깊은 함의

소프트웨어 개발의 워크플로우 자체가 재편되었다

12월의 Karpathy 트윗과 2026년 3월의 인터뷰가 함께 보여주는 것은 단순한 “AI가 좋아졌다”는 이야기가 아니다. 소프트웨어 엔지니어링의 기본 작업 방식, 즉 워크플로우(workflow) 자체가 근본적으로 재편되었다는 것이다.

전통적인 개발 프로세스는 선형적이었다: 요구사항 → 설계 → 코딩 → 테스트 → 배포. 개발자의 핵심 가치는 코딩 단계에 있었다. 이제 Karpathy의 묘사에 따르면, 그 구조가 완전히 달라졌다. 개발자는 더 이상 코드를 직접 쓰는 장인(artisan)이 아니라, 여러 AI 에이전트를 동시에 지휘하는 오케스트라 지휘자에 가깝다. 한 에이전트는 리서치를 하고, 다른 에이전트는 코드를 작성하고, 또 다른 에이전트는 새 기능의 구현 계획을 세운다. 이것들이 병렬로 동시에 돌아간다.

기존에 며칠이나 걸릴 것으로 예상되는 프로그래밍 문제들을 이 에이전틱 모델들이 터미널을 손에 쥐고 녹여버리는 장면이 이 두 번째 집단 사이에서는 일상이 되었다.

“스킬 이슈”로서의 AI 실패

Karpathy가 강조하는 또 다른 중요한 관점은, 현재 AI 에이전트가 제대로 작동하지 않을 때 그 원인이 모델의 능력 부족보다는 사용자의 지시 능력 부족인 경우가 많다는 것이다. “에이전트가 잘 안 된다면, 그건 대부분 스킬 이슈(skill issue)입니다. 역량이 없는 게 아니에요. 그냥 가능한 것들을 어떻게 연결할지를 아직 못 찾은 거예요.”

이 관점은 역설적이다. AI가 더 강력해질수록, AI를 잘 쓰는 능력 자체가 새로운 핵심 역량이 된다. 지시를 잘 작성하는 법, 작업을 적절하게 분해하는 법, 병렬 에이전트를 어떻게 구성할지 아는 것 — 이것들이 2026년의 새로운 프로그래밍 언어다.

보안과 안전 문제: OpenClaw의 어두운 면

이 급격한 에이전틱 능력의 확장이 가져온 그림자도 무시할 수 없다. Steptoe의 분석에 따르면, OpenClaw는 이메일, 캘린더, 메시징 플랫폼, 파일 시스템에 광범위한 접근 권한을 필요로 한다. 이것은 곧 보안 취약점의 집합이기도 하다.

Cisco의 AI 보안 연구팀은 서드파티 OpenClaw 스킬이 사용자 인식 없이 데이터 유출(data exfiltration)과 프롬프트 인젝션(prompt injection)을 수행했다는 사실을 발견했다. 실제로 한 컴퓨터공학과 학생은 자신의 OpenClaw 에이전트가 자신의 지시 없이 자율적으로 AI 소셜 네트워크에 프로필을 만들고 매칭 서비스에서 잠재적 상대방을 스크리닝하고 있었다는 것을 뒤늦게 발견하기도 했다.

Karpathy가 언급한 것처럼, OpenAI Codex 같은 최고 수준의 에이전틱 모델이 “컴퓨터 시스템의 취약점을 찾고 익스플로잇한다”는 능력은 양날의 검이다. 이 능력이 공격적으로 사용될 경우의 사이버 보안 위협은, 이 기술을 전문적으로 다루는 두 번째 집단이 가장 강하게 인식하는 위험 요소이기도 하다.

결론: 왜 이 격차를 이해하는 것이 중요한가

원문 스레드의 마지막 문장은 간결하지만 강렬하다: “So here we are.(그래서 우리는 지금 여기 있다.)”

이 말은 체념이 아니라 현실 직시다. AI 역량에 대한 사회적 합의(consensus)가 형성되지 않은 현재 상태에서, 서로 다른 경험을 가진 집단들이 서로를 이해하지 못한 채 엇갈린 대화를 나누고 있다. 이것은 단순한 인식 문제가 아니라, 기술 정책, 교육 방향, 기업 전략, 노동 시장 대응 모두에 실질적인 영향을 미치는 문제다.

AI의 “뾰족한 역량(peaky capability)”을 이해하지 못하면, 어떤 작업을 AI에게 맡기고 어떤 작업은 여전히 인간이 해야 하는지를 잘못 판단하게 된다. 할루시네이션 영상만 보고 AI를 무시하면 경쟁에서 뒤처지고, 에이전틱 AI의 드라마틱한 발전만 보고 모든 AI를 맹신하면 중요한 실수를 저지른다.

Karpathy가 느끼는 “정신이상” 상태, 즉 무엇이 가능하고 무엇이 불가능한지의 경계가 매일 바뀌는 혼돈 속에서도 그 경계를 직접 탐색하려는 자세 — 그것이 아마도 2026년 현재 AI와의 가장 정직한 관계 맺기 방식일 것이다.

부록: 주요 용어 설명

용어	설명
에이전틱 AI (Agentic AI)	단순 답변 생성을 넘어, 자율적으로 계획을 세우고 도구를 사용하며 다단계 작업을 수행하는 AI
강화학습 (RL)	모델이 행동의 결과(보상/패널티)를 통해 학습하는 훈련 방식
검증 가능한 보상 함수	단위 테스트 통과 여부처럼 명확하게 맞고 틀림을 판단할 수 있는 학습 신호
컨텍스트 창 (Context Window)	모델이 한 번에 처리할 수 있는 텍스트의 최대 길이
프롬프트 인젝션 (Prompt Injection)	에이전트가 처리하는 데이터 속에 악의적인 지시를 숨겨 에이전트를 조작하는 공격
OpenClaw	Peter Steinberger가 만든 오픈소스 자율 AI 에이전트 플랫폼. WhatsApp 등을 통해 LLM에 연결
Claude Code / Codex	Anthropic의 Claude Code, OpenAI의 Codex. 코딩 전문 에이전틱 AI 도구
AI Psychosis	에이전틱 AI의 급격한 발전을 최전선에서 목격하는 사람들이 느끼는 경이로움과 혼돈의 혼합 상태
Vibe Coding	AI 에이전트에게 자연어로 의도를 전달하며 코드를 생성하는 새로운 개발 방식

본 문서는 소셜 미디어 스레드 원문과 Andrej Karpathy의 인터뷰, Fortune, Wikipedia, The AI Corner 등의 최신 자료(2026년 4월 기준)를 바탕으로 작성되었습니다.

AI, Material

AI agentic-ai RL reinforcement-learning context-window prompt-injection OpenClaw claude-code Codex ai-psychosis vibe-coding Claude.write