François Chollet: "스케일링만으로는 AGI에 도달할 수 없다"

게시 2026/04/01

By BLUEBUG

69 분읽는 시간

Lightcone 팟캐스트 (2026년 3월 27일) 심층 분석

원본 영상: YouTube - François Chollet: Why Scaling Alone Isn’t Enough for AGI
출처: Lightcone Podcast (Y Combinator)
작성일: 2026년 4월 1일
대담자: François Chollet (Ndea 공동창업자, Keras 창시자, ARC Prize 공동창업자)

인터뷰 개요 및 맥락
François Chollet은 누구인가
Ndea — 딥러닝을 넘어선 새로운 길
새로운 머신러닝 패러다임: 심볼릭 강하법
왜 LLM 스케일링만으로는 부족한가
코딩 에이전트가 갑자기 작동하게 된 이유
검증 불가능한 영역의 한계
AGI의 진정한 의미 — 대부분의 정의가 틀렸다
딥러닝이 벽에 부딪히는 이유 — ARC의 탄생 배경
ARC 벤치마크 시리즈 해설: V1 → V2 → V3
코딩 에이전트를 구동하는 RL 루프
ARC-AGI V3: 에이전틱 지능을 측정한다
ARC 게임 스튜디오의 내부
AGI는 코드 1만 줄로 가능한가
Ndea 설립기 — 아이디어에서 복합적 연구 스택까지
ARC의 미래 — AI와 함께 진화하는 벤치마크
새로운 AI 패러다임의 기회
오픈소스 프로젝트를 성공시키는 법 — Keras의 교훈
AI 시대를 살아가는 자세
최신 동향 및 의의 (2026년 3월~4월 기준)
핵심 메시지 요약 및 통찰

1. 인터뷰 개요 및 맥락

이 인터뷰는 Y Combinator가 운영하는 Lightcone 팟캐스트에서 2026년 3월 27일에 공개되었다. 타이밍은 매우 절묘했다. 이틀 전인 2026년 3월 25일, François Chollet은 샌프란시스코 Y Combinator 본사에서 ARC-AGI-3를 공식 발표했다. 출시 이벤트에는 OpenAI CEO Sam Altman도 참석해 대담을 나눌 정도로 AI 업계의 주목을 받는 이벤트였다.

Chollet은 현재 가장 주목받는 AI 연구자 중 한 명으로, 업계 주류가 LLM 스케일링에 수천억 달러를 쏟아붓는 동안 홀로 다른 방향을 바라보고 있다. 그는 “지능이란 무엇인가”라는 근본적 질문에서 출발하여, 딥러닝과 완전히 다른 방법론으로 AGI를 구축하겠다는 야심찬 목표를 가지고 있다.

인터뷰는 다음의 핵심 주제들을 깊이 있게 다룬다.

LLM 스케일링 패러다임의 구조적 한계
딥러닝을 대체하는 새로운 머신러닝 기반인 프로그램 합성(Program Synthesis)
AGI의 정의와 현재 업계 담론의 문제점
ARC 벤치마크 시리즈가 포착한 AI 진보의 변곡점들
새로운 인터랙티브 벤치마크 ARC-AGI-3의 의미
AGI 연구의 현실적 타임라인

2. François Chollet은 누구인가

배경과 경력

François Chollet은 프랑스 출신의 AI 연구자로, 딥러닝 역사에서 가장 중요한 기여 중 하나를 한 인물이다.

2015년: 오픈소스 딥러닝 라이브러리 Keras를 창시했다. Scikit-learn에서 영감을 받아 딥러닝을 누구나 쉽게 사용할 수 있도록 직관적인 API를 설계했다. Keras는 이후 수백만 명의 연구자와 개발자가 사용하는 사실상의 표준이 되었으며, 구글에 합류한 이후 TensorFlow의 공식 고수준 API로 통합되었다.

구글 근무(약 10년): Google Brain에서 연구를 진행하며 자연어 처리, 추론 문제, 일차 논리(First-order Logic), 정리 증명(Theorem Proving) 등을 연구했다. 이 과정에서 경사하강법(Gradient Descent)의 근본적 한계를 직접 목격했다.

2019년: ARC(Abstraction and Reasoning Corpus) 벤치마크를 발표했다. 지능을 “기술 습득 효율성”으로 정의한 이 논문은 당시 업계에서 주목받지 못했지만, 이후 AI 능력 평가의 기준점이 되었다.

2024년 말: 약 10년 간의 구글 생활을 마치고 퇴사, AI 독립 연구의 길로 들어섰다.

2025년 1월: Mike Knoop(Zapier 공동창업자)과 함께 Ndea를 공동창업했다. AGI를 목표로 하는 연구 랩으로, Coatue Management, Factorial Capital, Quiet Capital 등으로부터 4천만 달러 이상의 투자를 유치했다. Y Combinator Winter 2026 배치에도 참여하고 있다.

독특한 관점

Chollet의 관점은 업계 주류와 근본적으로 다르다. 그는 기술 낙관론자이지만, 현재 LLM 기반 접근법이 AGI로 가는 최적의 경로라는 것에 동의하지 않는다. 그의 핵심 신념은 이것이다. “AI 연구는 시간이 지남에 따라 최적성(optimality)을 향해 수렴할 것이며, 현재의 딥러닝 스택은 그 최적점에서 매우 멀리 떨어져 있다.”

3. Ndea — 딥러닝을 넘어선 새로운 길

회사 이름의 의미

Ndea라는 이름은 그리스어 두 단어의 합성이다.

Ennoia(엔노이아): 직관적 이해, 패턴 인식
Dianoia(디아노이아): 논리적 추론, 분석적 사고

이 두 개념의 통합이 Ndea가 추구하는 연구의 본질이다. 딥러닝이 대표하는 직관적 인식 능력과, 프로그램 합성이 대표하는 엄밀한 논리적 추론을 하나의 아키텍처 안에 녹여내겠다는 것이다.

Ndea의 비전

Ndea의 홈페이지에는 다음과 같은 철학이 담겨 있다.

“우리는 프로그램 합성이 AGI를 여는 열쇠라고 믿는다. 연속적인 임베딩 공간에서 데이터 포인트들 사이를 보간하는 대신, 프로그램 합성은 관찰된 데이터를 완벽하게 설명하는 이산적 프로그램, 즉 모델을 탐색한다.”

Ndea는 단순히 AGI 구축에서 멈추지 않는다. 이들의 비전은 더 크다. AGI를 통해 과학 진보를 가속하는 “과학 발전 공장”을 만드는 것이다. 자율 주행, 신약 개발, 지속 가능 에너지, 로봇공학, 우주 탐사 같은 ‘알려진 프론티어’뿐만 아니라, 아직 상상조차 못한 ‘알려지지 않은 프론티어’를 개척하겠다는 목표를 품고 있다.

성공 확률에 대한 솔직한 인정

Chollet은 인터뷰에서 이렇게 말했다. “우리의 접근이 성공할 확률은 10~15% 정도다. 하지만 그것으로 충분하다. 왜냐하면 우리가 하지 않으면 아무도 하지 않을 것이기 때문이다.” 이는 Y Combinator의 철학과 정확히 맞닿아 있다. 확률이 낮더라도 임팩트가 크고 아무도 하지 않는 일이라면 도전할 가치가 있다는 것이다.

4. 새로운 머신러닝 패러다임: 심볼릭 강하법

머신러닝의 근본 문제

머신러닝의 본질은 이것이다. 입력 데이터와 목표 데이터가 주어졌을 때, 새로운 입력에도 잘 일반화되는 함수를 찾는 것. 딥러닝은 이 함수로 매개변수 곡선(parametric curve) 을 사용한다. 모델의 수십억 개 파라미터를 경사하강법(gradient descent) 으로 조정하여 이 곡선을 데이터에 맞춘다.

Ndea는 이 매개변수 곡선을 심볼릭 모델(symbolic model) 로 대체한다. 핵심 아이디어는 데이터를 설명하는 “가능한 한 가장 작고 단순한 모델”을 찾는 것이다.

심볼릭 강하법(Symbolic Descent)

경사하강법을 심볼릭 공간에서 수행하는 것이 바로 심볼릭 강하법이다. Chollet이 설명하는 방식은 다음과 같다.

딥러닝: 연속적인 매개변수 공간에서 경사를 따라 최소점을 찾음
심볼릭 강하법: 이산적인 프로그램 공간에서 가장 단순한 설명 프로그램을 탐색

이 접근법이 우월한 이유를 Chollet은 최소 기술 길이 원리(Minimum Description Length Principle) 로 설명한다. 데이터를 가장 잘 일반화하는 모델은 그 데이터를 가장 짧게 설명하는 모델이다. 매개변수 학습으로는 이런 최소한의 모델을 찾을 수 없다. 심볼릭 방식이 필요하다.

딥러닝 유도 프로그램 탐색

그런데 프로그램 합성의 오래된 문제가 있다. 탐색 공간이 조합적으로 폭발한다는 것(Combinatorial Explosion). Ndea의 해법은 딥러닝을 가이드로 활용하여 이 탐색 공간을 효율적으로 압축하는 것이다. 이 개념은 AlphaGo/AlphaZero가 바둑이라는 거대한 탐색 공간을 딥러닝으로 가이드해 정복한 것과 유사하다.

이 접근의 잠재적 장점들

프로그램 합성 기반 AI가 현실화되면 다음과 같은 장점이 기대된다.

극단적 데이터 효율성: 몇 가지 사례만으로 패턴을 학습. 현재 LLM이 수십억 개의 토큰을 학습하는 것과 대조적으로, 인간처럼 몇 번의 예시만으로 새로운 개념을 습득할 수 있다.

추론 효율성: 모델 자체가 매우 작기 때문에 추론(inference) 비용이 극적으로 줄어든다. 인터뷰에서 언급된 비용 차이는 현저하다. 동일한 ARC 문제를 LLM으로 풀면 1달러~10달러가 드는 반면, Ndea의 접근으로는 0.3센트 수준을 목표로 한다.

더 나은 일반화: 작고 단순한 모델은 더 잘 일반화된다. 최소 기술 길이 원리에 의거한 이론적 보장이다.

더 나은 구성(Composition): 심볼릭 모델들은 서로 결합하고 조합하기 쉽다. 이는 지식의 전이와 재사용을 가능하게 한다.

5. 왜 LLM 스케일링만으로는 부족한가

업계 현황에 대한 냉철한 분석

Chollet은 현재 모든 사람이 LLM 스택 위에서 개발하는 것이 당연하다고 인정한다. 실제로 효과가 있고 수익도 나기 때문이다. 하지만 그는 이것이 인류에게 최선이 아닐 수 있다고 주장한다.

“만약 모두가 같은 것을 연구한다면, 매우 비생산적이다. 50년 후 AI는 여전히 이 스택 위에 구축되지 않을 것이라고 생각한다.”

그가 현재 LLM 스택에 대해 갖는 핵심 우려는 다음과 같다.

최적성의 부재: 딥러닝은 특정 문제를 풀 수 있지만 그 방식이 최적과는 거리가 멀다. 마치 자전거로 목적지에 도달할 수 있지만 비행기가 훨씬 효율적인 것처럼, 현재 AI는 작동은 하지만 지독하게 비효율적이다.

스케일링의 수확 체감: ARC V1 벤치마크에서 베이스 모델들이 기본 LLM의 규모를 5만 배 늘려도 성능이 10% 미만에 머물렀다는 사실이 이를 증명한다. 프리트레이닝 스케일링만으로는 유동적 지능을 달성할 수 없다.

비용의 폭발적 증가: 점점 더 많은 컴퓨팅과 데이터가 필요하며, 이는 AI 발전을 소수의 초대형 기업만이 할 수 있는 독점적 영역으로 만든다.

그렇다면 LLM은 어디까지 갈 수 있는가?

흥미롭게도 Chollet은 LLM 스택이 완전히 틀렸다고 보지 않는다. 그는 이론적으로 LLM 위에 AGI와 유사한 것을 구축하는 것이 가능하다고 본다. LLM이 일종의 “컴퓨터”이기 때문이다. 하지만 그것은 극도로 비효율적인 방식일 것이다. 미래의 AI는 “추론 모델 위의 하네스 위의 베이스 모델”이라는 겹겹이 쌓인 구조가 아니라, 훨씬 더 낮은 수준에서의 새로운 기반 위에 세워질 것이라고 예측한다.

6. 코딩 에이전트가 갑자기 작동하게 된 이유

검증 가능한 보상 신호의 등장

2025~2026년의 가장 놀라운 AI 발전 중 하나는 코딩 에이전트의 폭발적 성능 향상이었다. Chollet은 이것이 자신을 포함한 많은 사람들을 놀라게 했다고 솔직하게 인정한다. 그는 그 이유를 명확하게 분석한다.

“코드는 검증 가능한 보상 신호를 제공한다. 지금 우리는 어떤 문제든 그 해법을 공식적으로 검증할 수 있다면 현재 기술로 완전히 자동화할 수 있는 상황에 있다. 코드가 그 첫 번째 영역이다.”

코딩 영역에서의 검증 가능성은 구체적으로 이렇게 작동한다.

코드가 컴파일되는가?
단위 테스트를 통과하는가?
실행 결과가 예상과 일치하는가?

이 명확한 참/거짓 신호가 강화학습 루프를 구동한다. 모델이 코드를 작성하고, 검증하고, 실패에서 학습하고, 다시 시도하는 과정이 인간의 개입 없이 수백만 번 반복될 수 있게 된 것이다.

실행 모델의 내재화

코딩 에이전트의 또 다른 핵심 발전은 코드 실행 모델의 내재화다. 숙련된 프로그래머가 코드를 읽을 때 머릿속으로 실행하며 변수 값을 추적하듯이, 모델들도 이제 이런 실행 추적 능력을 학습하기 시작했다. 이는 단순한 패턴 매칭을 넘어 진정한 이해에 가까워지는 것이다.

수학 분야도 곧 혁명이 온다

Chollet은 같은 이유로 수학 분야도 곧 혁명적 발전이 올 것이라고 예측한다. 수학 정리의 증명 역시 형식 검증 시스템(Lean, Coq 등)을 통해 완벽하게 검증할 수 있기 때문이다. 검증 가능한 영역이라면 같은 RL 루프를 적용할 수 있다.

7. 검증 불가능한 영역의 한계

에세이 쓰기, 법률, 창의적 작업

코딩과 수학이 혁명적으로 발전하는 것과 대조적으로, 검증할 수 없는 영역에서의 발전은 훨씬 더디거나 멈출 수도 있다. 대표적인 예가 에세이 작성이다.

“좋은 에세이”에 대한 명확한 참/거짓 신호가 없다면 어떻게 되는가? 현재의 방법은 인간 전문가가 답변에 주석을 달아 훈련 데이터를 만드는 것인데, 이는 비용이 많이 들고 느리며 다음의 문제들을 내포한다.

인간 전문가의 판단 자체가 주관적이고 일관성이 없다.
커버리지가 제한적이다. 인간이 주석을 달 수 있는 속도는 RL 환경이 데이터를 생성하는 속도보다 훨씬 느리다.
진정한 이해보다는 인간이 좋아할 것 같은 패턴을 모방하는 것에 그칠 수 있다.

법률, 의학적 판단, 심리 상담, 창의적 글쓰기 등도 마찬가지다. Chollet은 이런 영역에서 LLM 기반 접근의 발전이 매우 느리거나 정체될 수 있다고 예측한다.

이 통찰은 매우 중요한 함의를 가진다. 현재 코딩 에이전트와 수학 추론에서 목격하는 극적인 발전이 모든 영역에서 반복되리라는 기대는 근거가 없다는 것이다.

8. AGI의 진정한 의미 — 대부분의 정의가 틀렸다

업계의 지배적 정의와 그 문제

현재 AI 업계에서 AGI를 정의하는 가장 일반적인 방식은 이렇다. “대부분의 경제적으로 가치 있는 작업을 자동화할 수 있는 시스템.” OpenAI, Anthropic 등 주요 AI 랩들이 사용하는 정의다.

Chollet은 이 정의가 자동화(automation) 에 대한 것이지 지능(intelligence) 에 대한 것이 아니라고 날카롭게 지적한다. 자동화는 지능 없이도 달성할 수 있다. 특정 영역에서 인간을 능가하는 도구를 만드는 것과 진정한 일반 지능을 만드는 것은 완전히 다른 문제다.

Chollet의 정의: 기술 습득 효율성

“AGI는 어떤 새로운 문제, 새로운 과제, 새로운 도메인에도 접근하여 그것을 모델화하고 숙달할 수 있는 시스템이다. 그것도 인간이 할 수 있는 것과 동일한 효율성으로.”

이 정의에서 핵심은 효율성이다. 인간은 놀라운 데이터 효율성을 가지고 있다. 어린 아이가 몇 번의 예시만으로 새로운 개념을 습득하고, 전문가가 새로운 분야를 단기간에 마스터한다. 현재 AI는 이런 효율성과는 거리가 멀다.

두 가지 AGI가 먼저 올 것이다

흥미롭게도 Chollet은 업계의 자동화 중심 AGI 정의가 먼저 충족될 수 있다고 인정한다. 그리고 그것은 이미 부분적으로 실현되고 있다. 코드 분야에서 인간 수준이나 그 이상의 성능을 달성한 것이 바로 그 예다.

하지만 이것은 Chollet이 정의하는 “진정한 AGI”가 아니다. 그가 말하는 AGI는 임의의 과제에 대해 인간 수준의 학습 효율성을 보여주는 시스템이며, 이를 위해서는 근본적으로 다른 기술이 필요하다.

9. 딥러닝이 벽에 부딪히는 이유 — ARC의 탄생 배경

2016년 Google Brain에서의 발견

Chollet은 인터뷰에서 자신이 딥러닝의 한계를 발견한 결정적 순간을 회고한다. 2016년 Google Brain에서 추론 문제, 특히 일차 논리(First-order Logic) 문제를 딥러닝으로 풀려고 시도했을 때의 이야기다.

모델이 이런 알고리즘들을 표현(represent) 할 수 없는 것이 아니었다. 문제는 경사하강법(Gradient Descent)이 이런 알고리즘들을 찾지(find) 못한다는 것이었다. 경사하강법은 일반화 가능한 프로그램을 찾는 대신, 입력 토큰 시퀀스에 대한 과적합 패턴 매칭으로 귀결되었다.

이것이 Chollet이 ARC를 만들게 된 출발점이었다. 일반화 능력을 직접 측정하는 벤치마크가 필요했다.

ARC의 탄생 과정

2017년경: “추론의 ImageNet”을 만들겠다는 아이디어를 가지고 아이디어 구상 시작
2018년 초: ARC 포맷 확정
2018년 여름: ARC 태스크 편집기 개발
2018~2019년: 1만 개의 태스크를 손수 제작
2019년: ARC 논문 발표 및 공개

당시 Keras 개발이 메인 프로젝트였기 때문에 ARC는 사이드 프로젝트로 조용히 진행되었다. 논문이 발표될 당시만 해도 딥러닝 커뮤니티에서 거의 주목을 받지 못했다.

경사하강법의 근본적 한계

이 맥락에서 Chollet이 지적하는 경사하강법의 핵심 한계는 이것이다.

딥러닝 모델들은 이론적으로 어떤 알고리즘도 근사할 수 있다. 하지만 실제로 경사하강법은 훈련 데이터에서 관찰된 패턴을 암기하는 방향으로 최적화되는 경향이 있다. 진정한 일반화를 위해서는 패턴을 설명하는 규칙을 찾아야 하는데, 경사하강법은 이런 “올바른 모델”을 찾기보다 데이터 포인트들 사이의 통계적 관계를 모방하는 데 그친다.

Chollet은 이를 이렇게 표현한다. “모든 모델은 틀렸지만, 어떤 모델은 유용하다. 우리의 방법은 올바른 모델을 찾을 수 있다.”

10. ARC 벤치마크 시리즈 해설: V1 → V2 → V3

ARC-AGI-1: 추론 모델의 출현을 포착

ARC V1은 2019년에 발표되었다. 그리드 기반의 추상 패턴 문제들로 구성되며, 각 문제는 몇 가지 입력-출력 예시로부터 규칙을 추론하여 새로운 입력에 적용하는 것을 요구한다.

초기 성과를 보면 다음과 같다.

GPT-3 수준의 초기 LLM들: 거의 0%
수십억 달러 규모로 스케일업된 최신 베이스 LLM들(추론 없이): 여전히 10% 미만
2024년까지 인간 성능(95% 이상)에 비해 압도적으로 낮은 점수

그런데 2024년 말 OpenAI o1이 등장하면서 상황이 급변했다. 그리고 곧 o3 모델이 ARC-AGI-1에서 인간 수준의 성능을 달성했다. 이것은 단순한 벤치마크 성과가 아니었다. 추론 모델(Reasoning Models)이라는 새로운 패러다임이 출현했다는 신호였으며, Chollet은 ARC-AGI-1이 이 변곡점을 정확하게 포착했다고 말한다.

ARC-AGI-2: 에이전틱 코딩 시대의 포착

ARC V2는 V1과 같은 포맷이지만 더 어렵고, 더 복잡한 추론 체인을 요구한다.

초기 최신 추론 모델들도 V2에서는 매우 낮은 성적에서 출발했다. 그런데 코딩 에이전트가 폭발적으로 발전하던 2025~2026년 초, V2도 급격히 포화(saturation)되기 시작했다.

V2 포화의 방법론은 흥미롭다. 프론티어 랩들이 V2를 공략하기 위해 대규모로 타겟팅을 시작했다.

추론 모델로 V2와 유사한 새 문제들을 대량 생성
프로그램 유도(program induction)로 문제 해결 시도
해결 성공 시 해당 추론 체인으로 모델 파인튜닝
이 루프를 수백만 번 반복

이것이 바로 현재 코딩 에이전트를 구동하는 RL 루프와 본질적으로 같은 메커니즘이다.

V2를 포화시킨 대표적 사례로 YC Winter 2026 배치의 Confluence Labs가 있다. 불과 두 달여 만에 V2에서 97%의 정확도를 달성하며 벤치마크를 사실상 포화시켰다.

단, Chollet은 중요한 점을 강조한다. V2 포화가 모델의 유동적 지능이 높아진 것이 아니라, 더 나은 포스트트레이닝 패러다임의 결과라는 것이다. 모델이 더 똑똑해진 것이 아니라, 특정 영역에서 더 잘 훈련된 것이다.

ARC-AGI-3: 에이전틱 지능의 측정 (2026년 3월 25일 발표)

V3는 V1, V2와 완전히 다른 패러다임이다.

핵심 차이: V1과 V2는 수동적(passive)이고 정적(static)이었다. 데이터가 주어지고, 패턴을 찾으면 된다. V3는 인터랙티브(interactive) 하고 능동적(active) 이다. 데이터를 직접 탐색을 통해 수집해야 한다.

공식 출시 결과 (2026년 3월 25일 기준)

시스템	ARC-AGI-3 점수
인간	100%
Google Gemini Pro	0.37%
GPT-5.4 High	0.26%
Claude Opus 4.6	0.25%
Grok-4.20	0%

인간은 100% 해결하는 반면, 최고 성능의 프론티어 AI 모델들은 1%에도 미치지 못한다. 이 극적인 격차가 V3가 측정하려는 것의 현재 상태를 보여준다.

11. 코딩 에이전트를 구동하는 RL 루프

에이전트 하네스(Agent Harness)란 무엇인가

인터뷰에서 “에이전트 하네스(harness)”가 반복적으로 언급된다. 이는 특정 문제 도메인을 형식적으로 검증 가능하게 만들어주는 구조를 의미한다. 인간 프로그래머가 AI에게 고수준의 해결 전략을 입력하고, AI가 그 전략을 실행하며 검증 신호를 받는 환경이다.

Anthropic의 창립자 Tom Brown의 사례가 이를 잘 보여준다. 초기 GPT 이전 시대에 AI가 스타크래프트를 플레이할 수 있도록 하네스 코드를 작성했다. 하네스가 없으면 AI는 게임의 규칙도, 목표도 이해하지 못한다.

하네스의 한계와 의미

Chollet은 인간이 하네스를 설계해야 한다는 사실 자체가 우리가 아직 AGI와 거리가 멀다는 증거라고 말한다. 진정한 AGI라면 스스로 하네스를 만들 것이기 때문이다. 문제를 어떻게 풀어야 하는지 말해줄 필요가 없다. 스스로 파악할 것이다.

하지만 하네스는 현재 기술로 특정 도메인의 작업 자동화를 극적으로 향상시킬 수 있는 매우 실용적인 접근이다. AGI로 가는 길은 아니지만, 현재 당장의 가치는 엄청나다.

지능 vs 지식의 트레이드오프

Chollet은 이 섹션에서 매우 통찰력 있는 관찰을 제공한다.

“역량(competence)에서는 항상 지능(intelligence)과 지식(knowledge) 사이의 트레이드오프가 있다. 지식이 많을수록, 더 잘 훈련될수록, 역량을 발휘하는 데 필요한 지능이 적어진다.”

이것이 코딩 에이전트 발전의 정확한 설명이다. 모델의 IQ(유동적 지능)가 높아진 것이 아니라, 더 나은 훈련(트라이얼-앤-에러 기반 포스트트레이닝 + 실행 모델 내재화)으로 인해 해당 영역에서의 역량이 극적으로 향상된 것이다.

12. ARC-AGI V3: 에이전틱 지능을 측정한다

V3의 설계 철학

ARC-AGI V3는 에이전틱 지능(Agentic Intelligence) 을 측정하기 위해 설계되었다. 구체적으로 측정하려는 능력들은 다음과 같다.

탐색 효율성(Exploration Efficiency): 완전히 새로운 환경을 얼마나 효율적으로 탐색하는가?

자율 목표 설정(Autonomous Goal Acquisition): 지시나 목표가 주어지지 않은 상태에서 스스로 무엇을 해야 하는지 파악하는가?

환경 모델링(World Modeling): 탐색을 통해 수집한 데이터로 환경의 인과 모델을 구축하는가?

계획 및 실행(Planning and Execution): 구축된 모델을 바탕으로 목표를 향한 계획을 수립하고 실행하는가?

V3의 게임 구조

에이전트는 완전히 새로운 미니 비디오 게임 환경에 투입된다. 아무런 지시도, 규칙도, 목표도 알려주지 않는다. 심지어 어떤 키가 어떤 기능을 하는지도 알려주지 않는다. 처음부터 모든 것을 스스로 파악해야 한다.

인간은 이런 상황에서 몇 가지를 시도해보고, 패턴을 파악하며, 수백에서 수천 번의 행동 안에 게임을 해결한다. V3는 AI가 이와 동일한 효율성을 달성할 수 있는지를 측정한다. Chollet과 그의 팀은 V3의 모든 환경이 사전 훈련 없는 일반인도 해결 가능하다는 것을 실제로 테스트를 통해 검증했다.

왜 기존 방법으로 V3를 뚫기 어려운가

V1 포화 = 추론 모델로, V2 포화 = RL 루프로 달성되었다면, V3는 어떻게 해야 할까?

V2의 하네스 전략(V2와 유사한 게임을 대량 생성해 훈련)은 V3에 적용하기 훨씬 어렵다. 그 이유는 다음과 같다.

공개 세트와 비공개 세트의 큰 차이: V3의 비공개 평가 세트는 공개 세트와 매우 다른 개념의 게임들로 구성되어 있다.
공개 세트의 더 쉬운 난이도: 공개 세트에서의 성능이 비공개 세트에서의 성능을 대표하지 않는다.
효율성 점수: 단순히 문제를 풀었는지뿐 아니라 얼마나 효율적으로 풀었는지를 측정한다. 브루트포스 탐색으로는 효율성 점수가 극도로 낮다.

이 설계 때문에 V3는 V1, V2보다 훨씬 더 오랫동안 미해결 상태로 남을 가능성이 높다.

13. ARC 게임 스튜디오의 내부

250개 이상의 게임을 만든 스튜디오

V3를 위해 Ndea 팀은 실제 게임 스튜디오를 차렸다. 전직 비디오 게임 산업 종사자들을 고용하여 자체 게임 엔진까지 개발했다. 총 250개 이상의 독창적인 게임이 제작되었으며, 각 게임은 처음 접하는 사람도 10분 내외에 플레이할 수 있도록 설계되었다.

게임 설계의 핵심 원칙

V3 게임들은 매우 독특한 제약 조건 아래 설계되었다.

외부 지식 배제: 화살표 아이콘(방향 지시), 녹색=진행/빨간색=정지 같은 문화적 기호, 언어, 특정 문화권의 상식 등 게임 외부의 지식을 활용할 수 없게 설계되었다.

핵심 지식만 허용: 기본 물리학, 객체의 개념, 에이전트와 의도(goals and intentions)의 개념 같은 가장 근본적인 인지 기반 지식만 사용된다.

이전 게임과의 독립성: V3 게임들은 기존의 어떤 상용 비디오 게임의 요소나 개념도 빌리지 않았다. 완전히 새로운 게임들이다.

이 원칙들의 목표는 하나다. 특정 문화권, 특정 게임 경험, 특정 언어 능력이 유리하거나 불리하지 않게 만드는 것. 순수한 인과 추론과 탐색 능력만을 측정하기 위함이다.

Chollet은 이것을 전통적인 IQ 테스트의 패턴 매칭과 비교한다. “IQ 테스트처럼 패턴 매칭이지만, 이제 시간적 차원(time series)이 있고, 더 나아가 인터랙티브하다. 당신이 게임 공간을 통과하는 경로를 스스로 만들어야 한다.”

14. AGI는 코드 1만 줄로 가능한가

충격적인 예측

인터뷰에서 가장 도발적인 주장 중 하나는 여기에 있다. Chollet은 AGI가 실현되었을 때, 돌아보면 그것이 코드 1만 줄 미만으로 구현되어 있었을 것이라고 예측한다.

더 나아가, 만약 1980년대에 그 해법을 알고 있었다면 당시의 컴퓨팅 자원으로도 AGI를 구현할 수 있었을 것이라고 주장한다.

“우리가 AGI를 만들었을 때, 돌이켜보면 그것은 코드베이스가 1만 줄 미만이었을 것이다. 그리고 1980년대에 그것을 알고 있었다면, 당시의 컴퓨팅 자원으로도 AGI를 만들 수 있었을 것이다.”

두 층위의 구분: 지능 엔진 vs 지식 베이스

이 예측을 이해하려면 Chollet이 제시하는 중요한 구분을 이해해야 한다.

유동적 지능 엔진(Fluid Intelligence Engine): 이것은 매우 작은 코드베이스로 구현될 것이다. 메가바이트 단위의 모델들. 이것이 “진정한 지능”의 알고리즘적 핵심이다.

지식 베이스(Knowledge Base): 이 지능 엔진은 방대한 지식 베이스를 활용해야 한다. 이 지식 베이스는 훨씬 더 많은 공간을 차지할 것이다. 현재 LLM이 하는 일의 상당 부분은 바로 이 지식 베이스를 구축하는 것이다.

Douglas Lenat의 Cyc 프로젝트와의 차이

진행자가 이 설명이 Douglas Lenat의 Cyc 프로젝트(인간 상식 지식을 대규모로 수동 인코딩하려던 1980년대 프로젝트)와 유사해 보인다고 지적했다. Chollet은 핵심 차이를 짚는다.

Cyc의 문제는 학습이 없었다는 것이다. 지식이 인간에 의해 직접 제작되었다. 반면, 진정한 AGI는 인간을 개선 루프에서 최대한 제거해야 한다. 시스템 스스로 지식을 쌓고, 역량을 향상시킬 수 있어야 한다.

딥러닝의 핵심 강점도 바로 여기 있다. 인간이 직접 지식을 입력하지 않아도, 학습 데이터를 스케일업하는 것만으로 지식 베이스를 확장할 수 있다. Ndea가 만들려는 시스템도 이와 마찬가지로 자기 개선적(self-improving)이어야 하며, 그 개선이 복합적(compounding)이어야 한다.

15. Ndea 설립기 — 아이디어에서 복합적 연구 스택까지

Day 1의 명확한 비전

다른 많은 AI 스타트업과 달리, Ndea는 첫날부터 명확한 기술적 방향을 가지고 시작했다. “심볼릭 프로그램 합성으로 새로운 머신러닝 접근을 만들겠다. 매개변수 곡선 대신 최소한의 심볼릭 모델을 사용하겠다.”

남은 핵심 질문은 이것이었다. “어떻게 이 모델들을 찾을 것인가?”

첫 6개월의 탐색

Ndea는 다양한 아이디어를 시도했다. 딥러닝 유도 심볼릭 탐색이라는 큰 방향은 처음부터 있었지만, 구체적 구현 방법을 찾는 데 약 6개월이 걸렸다.

Chollet이 강조하는 것은 “복합적 스택(compounding stack)”의 중요성이다. 매번 새로운 아이디어를 처음부터 시작하는 것이 아니라, 이전 연구에서 쌓인 재사용 가능한 기반 위에 다음 레이어를 쌓는 방식이어야 한다. 기초 레이어에 너무 일찍 확정하지 않되, 어느 시점에는 이 복합적 구조를 쌓아가는 데 집중해야 한다.

16. ARC의 미래 — AI와 함께 진화하는 벤치마크

ARC-AGI-4: 연속 학습

이미 계획 중인 V4는 V3의 정신을 이어받되, 연속 학습(continual learning) 과 커리큘럼 학습(curriculum learning) 에 더 초점을 맞춘다. 게임 수는 적지만 각 게임의 레벨 수가 훨씬 많다. 레벨들은 복합적(compounding)으로 설계된다. 이전 레벨에서 학습한 것을 다음 레벨에서 재활용해야만 풀 수 있다.

ARC-AGI-5: 발명

Chollet이 특히 흥분하며 언급하는 것이 V5다. 그는 V5가 “발명(invention)”에 관한 것이 될 것이라고만 암시하며, 구체적인 내용은 출시 때까지 비밀로 유지할 계획이다.

벤치마크의 종착점

ARC 시리즈의 목표는 특정 점수를 기준으로 “이것이 AGI입니다”라고 선언하는 것이 아니다. 인간과 AI 사이의 격차를 지속적으로 추적하고, 중요한 능력이 부재한 영역을 새로운 벤치마크로 포착하는 것이다.

Chollet은 최종적으로 “인간의 학습 효율성과 프론티어 AI 사이의 측정 가능한 차이가 없어질 때”를 AGI 순간이라고 정의한다. 그때가 되면 벤치마크 자체가 더 이상 의미를 잃게 된다.

17. 새로운 AI 패러다임의 기회

유전 알고리즘과 상태 공간 모델

Chollet은 현재 LLM 스택과 다른 다양한 접근들이 더 많이 탐색되어야 한다고 주장한다.

유전 알고리즘(Genetic Algorithms): 딥러닝에 투자된 것과 같은 수준의 자원이 유전 알고리즘 스케일업에 투자되었다면, 놀라운 결과가 나왔을 것이다. 진화적 탐색은 과학적 방법을 자동화하는 데 매우 적합한 방식이다.

상태 공간 모델(State Space Models): xLSTM 같은 아키텍처들, 트랜스포머 대신 순환 모델(recurrent models)을 사용하는 접근.

경사하강법 대안: 매개변수 학습을 유지하되 경사하강법 대신 탐색(search) 기반 접근, 진화적 방법 등.

스케일링 법칙이 없으면 시작하지 말라

어떤 새로운 패러다임이 유망한지 평가하는 Chollet의 기준은 명확하다.

필수 조건: 인간의 개입 없이 능력이 확장(scale)될 수 있어야 한다. “인간 엔지니어와 연구자들이 시간을 투자해야만 성능이 오르는 시스템”은 가능성이 없다. 역량 향상이 인간 투자에 묶여 있으면, 아무리 아이디어가 우아하고 영리해도 상한선이 존재한다.

딥러닝의 핵심 강점이 바로 인간 병목 없이 학습 데이터와 컴퓨팅을 늘리는 것만으로 능력이 향상되었다는 것이다. 새로운 패러다임도 이런 자기 개선 메커니즘이 내재되어 있어야 한다.

1970~80년대 논문을 읽어라

Chollet은 신진 연구자들에게 독특한 조언을 한다. “AI 연구 역사의 초기로 돌아가 1970~80년대 논문들을 읽어라.” 당시에는 더 다양한 접근들이 탐색되었다. 현재처럼 모든 것이 하나의 접근(딥러닝)으로 수렴하기 전이었다.

이는 현재 주류에서 외면받고 있지만 잠재력이 있는 아이디어들이 여전히 그 오래된 논문들 속에 잠들어 있을 수 있다는 통찰이다.

18. 오픈소스 프로젝트를 성공시키는 법 — Keras의 교훈

인터뷰 진행자가 자신의 오픈소스 프로젝트(gStack, 하루 1~3만 명 사용자)를 언급하며 Keras 개발 경험에서 배운 교훈을 묻자, Chollet은 세 가지 핵심을 이야기한다.

1. API의 단순함과 직관성

성공하는 오픈소스 라이브러리의 첫 번째 핵심은 단순하고 직관적인 API다. Keras가 Scikit-learn에서 영감을 받은 것도 이 때문이었다. 당시 기계학습의 표준이었던 Scikit-learn의 핵심 강점이 바로 쉬운 사용성이었다.

2. 교육적인 문서화

API 사용법만 설명하는 것으로는 부족하다. 라이브러리에 처음 접근하는 사람들은 이미 그 분야 전문가가 아니다. 문서는 도구 사용법을 가르치는 동시에 해당 분야 자체를 가르치는 역할도 해야 한다.

3. 파워유저를 고용하라

커뮤니티에서 가장 열정적인 파워유저들을 팀에 영입하는 것이 강력한 전략이다. 그들은 이미 제품에 대한 깊은 이해와 열정을 가지고 있기 때문에 팀에 합류하면 즉각적으로 높은 기여를 한다. Chollet은 구글이 이 부분에서 그가 원하는 만큼 자유롭지 않았던 것을 아쉬워했다.

19. AI 시대를 살아가는 자세

두려움보다 레버리지

인터뷰의 마지막 섹션에서 Chollet은 AI로 인해 직업을 잃을까 두려워하는 많은 사람들에게 직접 메시지를 전한다.

“AI 진보를 멈추기엔 너무 늦었다고 생각한다. 따라서 다음 질문은 ‘어떻게 AI를 활용하는가? 어떻게 파도를 탈 것인가?’이다.”

그의 핵심 통찰은 이것이다. 프로그래밍처럼 특정 분야에서의 전문 지식이 깊을수록 AI 도구를 더 효과적으로 활용할 수 있다. AI는 대체제가 아니라 증폭기(amplifier) 다.

도메인 전문성 + AI 리터러시

Chollet이 권고하는 전략은 이중적이다.

첫째, AI 자체에 대해 최대한 많이 배워라. 어떻게 작동하는지, 어디까지 할 수 있고 어디서 실패하는지 이해하면, 이 도구를 훨씬 더 지혜롭게 활용할 수 있다.

둘째, AI를 적용하고 싶은 도메인에 대해 깊은 전문성을 키워라. AI의 진정한 가치는 특정 도메인에 대한 깊은 이해와 결합될 때 극대화된다.

이는 인터뷰 내내 Chollet이 강조한 주제와도 연결된다. 일반적 역량(지능)과 도메인 지식의 결합이 실제 역량을 만든다는 것. AI 도구도 도메인 전문가의 손에 쥐어졌을 때 가장 강력하다.

20. 최신 동향 및 의의 (2026년 3월~4월 기준)

ARC-AGI-3 출시 및 초기 반응

2026년 3월 25일, ARC Prize 재단은 ARC-AGI-3를 공식 발표했다. ARC Prize 2026으로 총 200만 달러의 상금이 걸려 있으며, 두 가지 경쟁으로 나뉜다.

ARC-AGI-3 Competition: 에이전트가 ARC-AGI-3 게임을 플레이하는 새로운 방식의 대회
ARC-AGI-2 Grand Prize: 원본 포맷을 기리는 부문, 최고의 오픈소스 솔루션에 상금이 보장됨

출시 초기 결과는 명확한 메시지를 전한다. 프론티어 AI 모델들이 1%에도 못 미치는 점수를 기록하며, 현재 기술과 인간 수준 사이의 거대한 격차를 다시 한번 보여줬다.

Ndea의 현재 상태

Ndea는 현재 YC Winter 2026 배치에 참여 중이며, 샌프란시스코에 기반을 둔 소규모 원격 팀(미국과 유럽)으로 운영 중이다. 총 5명 수준의 팀이 세계 최고 밀도의 프로그램 합성 연구팀을 구축하겠다는 목표를 가지고 있다.

투자 면에서는 Coatue Management, Factorial Capital, Quiet Capital로부터 4천만 달러 이상을 유치했다. YC 가속 프로그램의 프리미엄 배치 중 하나로, 파격적인 사이즈가 아님에도 업계의 주목을 받는 것은 Chollet과 Knoop의 결합이 갖는 독특한 신뢰성 때문이다. Keras 창시자 + Zapier 공동창업자의 조합은 연구 역량과 실행 능력을 동시에 갖춘 드문 케이스다.

ARC-AGI-3와 Sam Altman의 만남

2026년 3월 25일 발표 이벤트에서 François Chollet과 OpenAI CEO Sam Altman이 “AGI로 가는 길에서 지능 측정하기”를 주제로 대담을 나눴다. AGI 정의에 대해 다른 입장을 가진 두 사람이 만났다는 것 자체가 상징적이다. 업계 전반이 ARC-AGI-3를 단순한 벤치마크가 아닌 AGI 경쟁의 새로운 기준점으로 받아들이기 시작했음을 보여준다.

21. 핵심 메시지 요약 및 통찰

이 인터뷰의 핵심 테제들

이 인터뷰에서 Chollet이 전달하는 핵심 주장들을 정리하면 다음과 같다.

1. 현재의 발전은 진짜이지만, 진정한 AGI와는 다른 것이다. 코딩 에이전트의 놀라운 발전은 모델이 더 똑똑해진 것이 아니라, 특정 영역에서 더 잘 훈련된 것이다. 이는 자동화 가치는 엄청나지만, AGI와는 근본적으로 다르다.

2. 검증 가능한 영역이 먼저, 그 외 영역은 멀다. 코드, 수학처럼 공식 검증이 가능한 영역은 현재 기술로 완전 자동화 가능하다. 에세이, 법률, 창의적 작업 등 검증 불가능한 영역은 발전이 훨씬 더디다.

3. 딥러닝은 경로이지 목적지가 아니다. 현재 LLM 기반 접근법은 AGI로 가는 도중에 우리를 데려다줄 수 있지만, 그것이 최종 형태는 아니다. AI 연구는 필연적으로 최적성을 향해 수렴할 것이다.

4. 심볼릭 프로그램 합성이 최적성으로 가는 길이다. 데이터를 가장 짧게 설명하는 심볼릭 모델을 찾는 것이 가장 일반화 능력이 뛰어난 모델을 찾는 것과 같다. 이는 과학적 방법 자체가 기본적으로 하는 일이기도 하다.

5. AGI의 기준은 효율성이다. 인간처럼 소량의 데이터와 제한된 경험으로 새로운 도메인을 마스터하는 것, 이것이 Chollet이 정의하는 AGI다.

6. AGI 타임라인: 2030년 초반. 현재 투자와 발전 속도를 고려하면, LLM 스택과 다양한 사이드 베팅들이 함께 수렴하여 2030년 초반에 AGI가 나타날 가능성이 높다.

비판적 시각

이 인터뷰는 Chollet의 관점을 중심으로 전개되며, 몇 가지 반론도 고려해볼 필요가 있다.

Ndea의 이해충돌: ARC Prize 재단의 공동창업자가 동시에 AI 랩을 운영하면서 벤치마크의 중립성에 대한 의문이 제기되고 있다. 참가자들이 코드베이스와 방법론을 공개해야 하는 조건이 Ndea에 유리할 수 있다는 비판이 있다.

성공 확률: Chollet 스스로 인정하듯 10~15%의 성공 확률이다. 프로그램 합성이 AGI로 가는 길임을 아직 증명하지 못했다.

LLM 스택의 지속적 발전: Chollet이 비효율적이라고 비판하는 LLM 스택도 계속 발전하며 그 한계를 넘고 있다. 모든 프론티어 랩이 프로그램 합성을 탐색하기 시작했다는 것 자체가 두 접근의 수렴 가능성을 시사한다.

AI 연구자, 개발자, 그리고 일반인에게 주는 메시지

이 인터뷰가 각 그룹에게 갖는 의미를 정리하면 다음과 같다.

AI 연구자: 주류 LLM 스케일링과 다른 방향의 연구를 탐색할 용기를 가져라. 1970~80년대 논문들을 다시 읽어라. 성공 확률이 낮아도 아무도 하지 않는 중요한 연구라면 가치 있다.

개발자: 코딩 에이전트의 발전은 일시적 트렌드가 아니다. 검증 가능한 보상 신호 기반의 AI 강화는 계속 가속될 것이다. 이 파도를 어떻게 탈지 준비하라.

비즈니스 리더: 검증 가능한 영역의 자동화는 현재 기술로 충분히 실현 가능하다. 그러나 판단, 창의성, 맥락 이해가 중요한 영역은 AI가 인간을 대체하기 훨씬 더 어렵다.

일반인: AI 진보를 두려워하는 것보다 활용하는 방법을 배워라. 특히 자신의 전문 도메인에서 AI를 적용하는 방법을 배우면, AI는 위협이 아니라 강력한 레버리지가 된다.

참고 자료

원본 영상: Lightcone Podcast - François Chollet: Why Scaling Alone Isn’t Enough for AGI (2026.03.27)
ARC Prize 공식 사이트: arcprize.org
ARC-AGI-3 발표 블로그: arcprize.org/blog/arc-agi-3-launch
Ndea 공식 사이트: ndea.com
TechCrunch - Ndea 창업 보도: AI researcher François Chollet founds a new AI lab focused on AGI
The Decoder - Chollet 인터뷰 심층 분석: the-decoder.com
VentureBeat - Ndea 소개: venturebeat.com - Ndea

이 문서는 Lightcone 팟캐스트의 François Chollet 인터뷰 트랜스크립트와 2026년 3월~4월 기준 최신 웹 검색 결과를 바탕으로 작성되었습니다.

AI, Material

AI AGI ARC llm-scaling coding-agents agent-harness Claude.write