AI가 생각까지 대신하는 시대는 언제 올까? - 2026년 중반, 낙관과 회의 사이에서

게시 2026/02/17

By BLUEBUG

38 분읽는 시간

프롤로그: 갈림길에 선 예측들

2026년 2월 현재, AI 업계는 이상한 분위기에 휩싸여 있다. 한편에서는 Anthropic의 CEO Dario Amodei가 “강력한 AI 시스템이 늦어도 2027년 초에 등장할 것”이라고 자신 있게 선언하고, OpenAI의 Sam Altman은 “우리는 이제 AGI를 만드는 방법을 안다”고 말한다. 다른 한편에서는 Gary Marcus 같은 회의론자들이 “지난 몇 달은 AGI 낙관론에 파괴적이었다”며 LLM의 근본적 한계를 지적한다.

더 흥미로운 것은, 이 양극단 사이의 간극이 점점 벌어지고 있다는 점이다. 2023년만 해도 대부분의 전문가들이 AGI가 “언젠가는” 올 것이라는 정도의 공통된 인식이 있었다. 그러나 2024년 말 OpenAI의 o3 모델이 ARC-AGI 벤치마크에서 87.5%를 달성하면서, 타임라인 예측은 극적으로 갈라졌다. 어떤 이들은 “이제 2년이면 된다”고 말하고, 어떤 이들은 “여전히 수십 년이 걸린다”고 말한다.

그렇다면 실제로는 어떨까? LLM이 단순히 타이핑을 대신하는 수준을 넘어, 진정으로 “생각”을 대신할 수 있는 시대는 정말 얼마 남지 않은 걸까?

낙관론자들의 근거: Reasoning Revolution

o3와 추론의 돌파구

낙관론의 핵심 근거는 2024년 말부터 2025년 초에 걸쳐 일어난 “Reasoning Revolution”이다. OpenAI의 o1, o3, o4-mini와 같은 모델들은 기존의 “System 1” 방식(빠르고 직관적이지만 오류가 많은)을 넘어, “System 2” 방식(느리지만 체계적인 추론)을 구현했다.

구체적으로, o3 모델은 다음과 같은 성과를 보였다:

ARC-AGI 벤치마크: 87.5% 달성. 이전까지는 인간이 평균 85%, 최고 AI가 5-20%에 불과했던 “fluid intelligence” 테스트다. 새로운 패턴을 이해하고 학습하는 능력을 측정하는데, o3는 인간을 뛰어넘었다.
Codeforces: Elo 2727점 달성. 이는 상위 175위 수준으로, 경쟁적 프로그래밍에서 전문가 수준이다. o1이 1891점이었던 것과 비교하면 극적인 도약이다.
SWE-bench Verified: 71.7% 달성. 실제 GitHub 이슈를 해결하는 능력을 측정하는데, o1의 48.9%에서 크게 향상되었다.
GPQA Diamond: 87.7%. 전문가 수준의 과학 질문에 대한 정답률이다.
AIME 2024/2025: o4-mini가 Python 인터프리터를 사용할 경우 99.5%(pass@1), 100%(consensus@8) 달성. 미국 수학 올림피아드 예선 문제를 거의 완벽하게 푼다.

이것은 단순한 점수 향상이 아니다. “Chain of Thought” 방식으로 모델이 답을 내기 전에 “생각하는 시간”을 갖게 함으로써, 복잡한 다단계 문제를 체계적으로 해결할 수 있게 된 것이다. 마치 사람이 어려운 문제를 풀 때 종이에 중간 계산 과정을 적어가며 푸는 것처럼, AI도 이제 “내부 독백”을 통해 추론한다.

Inference-time Compute Scaling

더 중요한 발견은 “Inference Scaling Law”다. 기존에는 AI 성능이 주로 모델 크기(파라미터 수)와 학습 데이터 양에 의해 결정된다고 생각했다. 그러나 o3 시리즈는 “추론 시점에 투입하는 컴퓨팅 자원”으로도 성능을 극적으로 높일 수 있음을 증명했다.

예를 들어, o3-mini는 “reasoning effort”를 low, medium, high로 조절할 수 있다. High 설정에서는 더 오래 생각하고, 더 많은 중간 단계를 거치며, 결과적으로 훨씬 정확한 답을 낸다. AIME 2024에서 low effort는 약 60%대, high effort는 87.3%의 정답률을 보인다.

이것이 의미하는 바는 명확하다. 중요한 문제에는 $1,000, $10,000, 심지어 $100만을 투입해서 “더 오래 생각하게” 함으로써, 2028년에야 가능할 성능을 2026년에 얻을 수 있다는 것이다. 한 분석에 따르면, “2026년에는 10만 배 더 많은 비용을 지불하면 2028년의 성능을 얻을 수 있다.”

도구 사용의 진화: 단순 보조에서 자율 에이전트로

2025년 말부터 2026년 초의 또 다른 중요한 변화는 도구 사용 능력이다. o3와 o4-mini는 처음으로 “언제, 어떻게 도구를 사용할지를 스스로 추론”하도록 강화학습으로 훈련되었다.

이전 모델들도 웹 검색, 코드 실행, 파일 분석 같은 도구를 사용할 수 있었지만, 언제 써야 하는지는 주로 프롬프트 엔지니어링으로 결정했다. 이제는 모델이 자체적으로 “이 문제를 풀려면 먼저 웹에서 최신 정보를 찾고, 그걸 파이썬으로 분석하고, 결과를 이미지로 시각화해야겠다”는 식의 계획을 세운다.

OpenAI의 공식 블로그에 따르면, o3와 o4-mini는 “도구를 사용하는 방법뿐 아니라, 원하는 결과를 얻기 위해 언제 도구를 써야 하는지 추론하도록 훈련되었다. 도구를 결과 기반으로 배치하는 능력이 이들을 개방형 상황, 특히 시각적 추론과 다단계 워크플로우가 포함된 상황에서 더 능력 있게 만든다.”

이것은 “보조 도구”에서 “자율 에이전트”로의 전환이다. 사용자가 “이걸 해결해줘”라고만 말하면, 모델이 알아서 필요한 도구를 찾고 조합하여 문제를 해결한다.

업계 리더들의 자신감

이러한 기술적 진전을 바탕으로, 업계 리더들은 매우 공격적인 타임라인을 제시한다:

Dario Amodei (Anthropic CEO): “강력한 AI 시스템은 늦어도 2026년 말이나 2027년 초에 등장할 것이다. 이들은 대부분의 분야에서 노벨상 수상자 수준의 지적 능력을 가질 것이며, ‘데이터센터 안의 천재 집단’이라 부를 수 있다.” 그는 또한 “90%의 코드가 AI로 작성되는 시점이 2025년 6월~9월”이라고 예측했다(비록 이 예측은 빗나갔지만).

Sam Altman (OpenAI CEO): “우리는 이제 AGI를 만드는 방법을 안다. AGI는 트럼프 대통령 임기 중에(2029년 1월 이전) 개발될 가능성이 높다.” 그는 2026년에 자동화된 AI 연구 인턴이, 2028년에는 완전한 AI 연구원이 등장할 것이라고 말했다. 또한 “다음 몇천 일 안에 초지능(superintelligence)이 가능할 수 있다”고 밝혔다.

Demis Hassabis (Google DeepMind CEO): 초기에는 “10년 안에”라고 했다가, 2025년 1월에는 “3~5년 안에”로 타임라인을 앞당겼다.

Elon Musk: “2026년까지 가장 똑똑한 인간보다 똑똑한 AI가 개발될 것”이라고 예측했다.

Jensen Huang (NVIDIA CEO): 2029년까지 AI가 모든 테스트에서 인간 수준 또는 그 이상을 달성할 것이라고 전망했다.

이들의 공통점은 “곧”이라는 것이다. 10년, 20년이 아니라 2~5년 안에 인간 수준 또는 그 이상의 AI가 등장한다는 것이다.

회의론자들의 반박: 근본적 한계들

Hallucination의 수학적 불가피성

그러나 낙관론에는 치명적인 약점이 있다. 바로 “환각(hallucination)” 문제다. 2025년 9월, OpenAI 자신의 연구팀이 충격적인 논문을 발표했다. “언어 모델의 환각은 수학적으로 불가피하다”는 것이다.

연구에 따르면 세 가지 수학적 요인이 환각을 피할 수 없게 만든다:

인식론적 불확실성(Epistemic Uncertainty): 학습 데이터에 드물게 등장하는 정보는 정확하게 학습할 수 없다. 누군가의 애완동물 생일 같은 저빈도 사실은 패턴만으로는 예측할 수 없다.
모델 한계(Model Limitations): 현재 아키텍처의 표현 능력을 넘어서는 작업은 근본적으로 수행할 수 없다.
계산적 불가능성(Computational Intractability): 초지능 시스템조차도 일부 문제는 합리적 시간 내에 풀 수 없다.

더 충격적인 것은 실제 데이터다. OpenAI의 o1 reasoning 모델은 공개 정보를 요약할 때 16%의 환각률을 보였다. 그런데 “더 발전된” o3는 33%, o4-mini는 48%의 환각률을 보였다. 즉, 모델이 더 복잡해지고 추론 능력이 향상될수록, 오히려 환각이 더 심해졌다.

Neil Shah(Counterpoint Technologies 부사장)는 이렇게 지적한다: “인간 지능과 달리, AI는 불확실성을 인정하는 겸손함이 없다. 확신이 서지 않을 때, 더 깊은 연구나 인간의 감독을 요청하는 대신, 추정을 사실처럼 제시하는 경우가 많다.”

“I Don’t Know”를 말할 수 없는 구조적 이유

그렇다면 왜 AI는 모를 때 “모른다”고 말하지 못할까? 그 이유는 훈련과 평가 방식에 있다.

현재 LLM들은 주로 “정확도(accuracy)” 기반 벤치마크로 평가된다. MMLU, HumanEval, GPQA 같은 표준 벤치마크들은 정답을 맞힌 비율만 측정한다. “모른다”고 대답하는 것은 오답과 똑같이 0점 처리된다.

따라서 모델은 강화학습 과정에서 “확신이 없어도 추측하는 것”이 보상받는다는 것을 학습한다. 10문제 중 3개를 확실히 알고, 7개는 모르는 상황에서, “3개만 답하고 나머지는 ‘모른다’“라고 하면 30점이다. 그러나 “7개를 추측해서 2개라도 맞히면” 50점이 된다. 벤치마크 리더보드에서 50점이 30점보다 낫다.

OpenAI 연구팀은 이렇게 말한다: “우리는 언어 모델이 환각을 하는 이유가 학습과 평가 절차가 불확실성을 인정하는 것보다 추측하는 것에 보상을 주기 때문이라고 주장한다.”

문제는, 이 구조를 바꾸기가 매우 어렵다는 것이다. 만약 ChatGPT가 “모른다”를 너무 자주 말하면, 사용자들은 다른 AI로 갈 것이다. OpenAI는 여전히 수익을 내지 못하고 있으며(2026년까지 연간 140억 달러 손실 예상), 사용자 기반을 늘려야 한다. “정직하지만 덜 도움이 되는” AI보다는 “가끔 틀리지만 항상 답을 주는” AI가 시장에서 승리한다.

Scaling Law의 벽

또 다른 문제는 스케일링이 한계에 부딪혔다는 점이다. 2020년부터 2024년까지는 간단했다. 모델을 더 크게 만들고, 데이터를 더 많이 넣으면, 성능이 거의 선형적으로 향상되었다. 그러나 2024년 말부터 이 공식이 깨지기 시작했다.

데이터 고갈: 인터넷의 고품질 텍스트 데이터는 이미 거의 다 사용되었다. Epoch AI의 분석에 따르면, GPT-6 규모의 학습에 필요한 데이터는 2028년까지 겨우 확보 가능할 것으로 보인다. 그 이후는? 합성 데이터(AI가 생성한 데이터)를 써야 하는데, 이는 “AI가 AI의 출력으로 학습하는” 순환 구조로, 품질 저하를 일으킬 수 있다.

비용 폭증: Dario Amodei는 GPT-6 수준 모델을 학습하는 데 약 100억 달러가 들 것이라고 추정한다. 이는 Google, Microsoft, Meta 같은 초대형 기업만 감당할 수 있는 수준이다. 그리고 Sam Altman이 발표한 Stargate 프로젝트는 8년간 1.4조 달러, 30기가와트의 전력을 필요로 한다. 이는 지속 가능하지 않다.

수익률 감소: 모델을 2배로 키워도 성능이 2배가 되지 않는다. GPT-4에서 GPT-5로, Sonnet 3.5에서 Sonnet 4.5로 갈수록, 투입 대비 개선폭은 줄어든다.

연속 학습의 부재

Sam Altman 자신이 인정했듯, “GPT-5는 학습 후 경험에서 배울 수 없다. 모든 대화가 새로 시작된다.” 이것은 인간 지능과의 근본적 차이다.

인간은 실수를 하면 그로부터 배운다. 특정 상황에서 특정 접근이 실패하면, 다음번엔 다른 방법을 시도한다. 그러나 LLM은 매번 동일한 상태에서 시작한다. 사용자 A와의 대화에서 배운 것이 사용자 B와의 대화에 전혀 반영되지 않는다.

물론 “메모리” 기능이 있지만, 이는 단순히 일부 정보를 저장하는 것이지, 모델의 가중치를 업데이트하는 진정한 학습이 아니다.

벤치마크와 실제의 괴리

마지막으로, 벤치마크 성능과 실제 능력 사이에는 큰 괴리가 있다. Andrej Karpathy는 “에이전트들은 아직 전혀 가깝지 않다”며 AGI가 10년은 더 걸릴 것이라고 말했다.

Gary Marcus는 더 신랄하다. 그는 2027년 말까지 AI가 특정 AGI 작업을 달성하지 못할 것이라는 데 10:1로 베팅했다. 그가 지적하는 것은 “jagged intelligence”다. 수학 올림피아드 금메달을 받으면서도, 12살 어린이가 풀 수 있는 상식 문제에서 실패한다.

예를 들어, o3는 Codeforces에서 상위 175위 수준이지만, 동시에 간단한 논리 퍼즐에서 황당한 실수를 한다. 이는 진정한 이해가 아니라 패턴 매칭의 결과다.

중간 지대: 현실적 시나리오

도메인별 “생각 대신하기”는 이미 시작되었다

극단적 낙관론과 회의론 사이 어딘가에 진실이 있을 것이다. 그리고 그 진실은 아마도 “도메인에 따라 다르다”일 것이다.

코딩: Claude Code, GitHub Copilot, Cursor 같은 도구들은 이미 “생각의 일부”를 대신하고 있다. 개발자가 “사용자 인증 시스템 만들어줘”라고 하면, 데이터베이스 스키마, API 엔드포인트, 프론트엔드 컴포넌트, 테스트 코드까지 생성한다. 이것은 단순 타이핑이 아니라 “어떤 구성 요소가 필요한지”를 파악하는 설계 작업이다.

Anthropic의 Felix Rieseberg는 “우리는 개별 코드 줄을 작성하는 것보다 제품과 아키텍처 결정을 내리는 데 더 많은 시간을 보냈다”고 말했다. Cowork 제품을 Claude Code로 1.5주 만에 만들었다는 것은, AI가 구현 세부사항의 “생각”을 대신했다는 의미다.

수학/과학: o4-mini가 AIME에서 99.5%를 달성한 것은 단순한 계산이 아니라 다단계 수학적 추론을 수행한 것이다. 문제를 읽고, 관련 정리를 떠올리고, 증명 전략을 세우고, 단계별로 풀어나가는 전 과정을 AI가 했다.

GPQA Diamond에서 87.7%는 박사급 과학 질문에 답한 것이다. “이 반응의 메커니즘은?”이나 “이 실험 결과를 어떻게 해석할 수 있나?” 같은 질문에 전문가 수준으로 답했다.

비즈니스 분석: o3의 early tester들은 “프로그래밍, 비즈니스/컨설팅, 창의적 발상 영역에서 특히 뛰어나다”고 평가했다. “생각의 파트너로서의 분석적 엄격함”과 “새로운 가설을 생성하고 비판적으로 평가하는 능력”을 강조했다.

그러나 “완전한” 생각 대신은 아직 멀었다

동시에, 여전히 인간이 필수적인 영역들이 있다:

애매모호함 해소: “좋은 디자인”이나 “사용자 친화적”같은 모호한 목표를 구체적 요구사항으로 바꾸는 것은 여전히 인간의 몫이다. AI는 명확한 지시에는 탁월하지만, 암묵적 기대를 파악하는 데는 약하다.

창의적 판단: InfoWorld의 개발자가 말했듯, “Claude가 완전히 엉뚱한 방향으로 가는 것을 알아차리고 다시 돌려놓는 것”이 중요한 작업이었다. AI는 때때로 “기술적으로는 작동하지만 끔찍하게 비효율적인” 코드를 생성한다.

전략적 우선순위: 무엇을 먼저 만들지, 어디에 자원을 투입할지, 어떤 트레이드오프를 할지는 여전히 인간의 결정이다.

윤리적 고려: AI는 “할 수 있다”와 “해야 한다”를 구분하지 못한다. 사용자 데이터를 어떻게 다룰지, 어떤 기능이 해로울 수 있는지, 누가 이 시스템의 영향을 받는지 같은 질문에는 인간의 판단이 필요하다.

2026-2030년의 현실적 시나리오

현실적으로 예측하자면, 2026년부터 2030년 사이에 우리는 다음을 보게 될 것이다:

2026-2027년: 도메인 특화 “생각 대신”의 급속한 확산. 코딩, 수학, 과학 논문 작성, 데이터 분석, 법률 조사 같은 명확하게 정의된 지적 작업에서 AI가 인간 전문가 수준 또는 그 이상을 달성한다. 그러나 이들은 여전히 “도구”이며, 인간의 감독과 최종 판단이 필요하다.

Dario Amodei의 예측은 부분적으로 맞을 수 있다. “노벨상 수준”의 지적 능력이 특정 도메인(화학, 생물학의 일부 분야, 컴퓨터 과학)에서는 실현될 수 있다. 그러나 “거의 모든 분야에서”는 과장일 가능성이 높다.

2027-2028년: 자율 에이전트의 실용화. 단순히 “질문-답변”이 아니라, “목표만 주면 알아서 수행”하는 시스템들이 등장한다. “다음 분기 매출 예측 보고서 만들어줘”라고 하면, 데이터 수집, 분석, 시각화, 보고서 작성을 자동으로 한다.

Sam Altman의 “2026년 AI 연구 인턴”은 2027-2028년쯤 현실화될 수 있다. 단, “인턴” 수준이지 “완전한 연구원”은 아닐 것이다.

2028-2030년: 일부 직종에서 실질적 대체. 단순 반복적인 지적 노동(데이터 입력, 기본적인 코드 작성, 표준화된 문서 작성)은 대부분 자동화된다. 그러나 복잡한 의사결정, 창의적 문제 해결, 대인 관계가 중요한 역할은 여전히 인간이 수행한다.

불확실성의 핵심: 돌파구의 유무

그러나 이 모든 예측에는 큰 “만약”이 붙는다. 만약 근본적인 아키텍처 돌파구가 나온다면? Yann LeCun은 현재의 Transformer 기반 LLM이 “진정한 이해”에 도달할 수 없으며, 완전히 새로운 접근이 필요하다고 주장한다.

Fei-Fei Li는 “공간 지능(spatial intelligence)”이 없으면 AGI가 완성되지 않는다고 말한다. 3차원 세계를 이해하고 탐색하는 능력, 물리적 법칙을 직관적으로 파악하는 능력 말이다. 현재 LLM들은 텍스트와 이미지는 다루지만, 물리적 세계와의 상호작용은 거의 없다.

만약 이런 돌파구들이 2027-2028년에 나온다면, 타임라인은 극적으로 앞당겨질 수 있다. 만약 나오지 않는다면, Transformer의 한계 내에서 점진적 개선만 계속되고, AGI는 10년 이상 더 걸릴 수 있다.

“생각을 대신한다”의 의미 재정의

What vs How의 분리

결국 핵심은 “생각을 대신한다”가 무엇을 의미하는지를 재정의하는 것이다. 생각에는 여러 층위가 있다:

구현 층위 (How): “이 기능을 어떻게 코드로 구현하지?” - 이미 대부분 AI가 대신한다.

설계 층위 (What): “어떤 기능이 필요하지?” - AI가 부분적으로 대신하기 시작했다.

전략 층위 (Why): “왜 이걸 만들어야 하지? 누구를 위한 거지?” - 여전히 인간의 영역이다.

현재 AI는 How를 거의 완전히 대신하고, What을 부분적으로 대신한다. 그러나 Why는 인간의 가치관, 목표, 우선순위와 깊게 연결되어 있어서, 단순히 “똑똑해지면” 대신할 수 있는 게 아니다.

협업의 새로운 형태

“대신한다”보다는 “함께 한다”가 더 정확한 표현일 수 있다. Anthropic 제품 책임자 Scott White가 말한 “vibe working” 시대는, AI가 인간을 대체하는 것이 아니라, 인간과 AI가 각자의 강점을 살려 협업하는 것이다.

인간은:

모호한 문제를 명확하게 정의한다
우선순위를 정하고 자원을 배분한다
윤리적 판단을 내린다
창의적 비전을 제시한다
결과를 검증하고 책임진다

AI는:

방대한 지식을 빠르게 검색한다
복잡한 계산과 분석을 수행한다
다양한 옵션을 생성한다
반복적 작업을 자동화한다
패턴을 발견한다

Dan Shipper가 말한 “한 엔지니어가 4-5명의 생산성”은 바로 이런 협업에서 나온다. AI가 구현을 맡으면, 인간은 더 높은 수준의 결정에 집중할 수 있다.

결론: 점진적 도래, 비균등 분포

“LLM이 생각까지 대신하는 시대”는 어느 날 갑자기 도래하지 않을 것이다. 오히려 다음과 같은 방식으로 점진적으로, 그리고 비균등하게 올 것이다:

도메인별 차등 도래

2026-2027년: 코딩, 수학, 일부 과학 영역에서는 “거의” 생각을 대신한다
2028-2030년: 비즈니스 분석, 법률 조사, 의학 진단 보조 등으로 확장
2030년대: 더 복잡하고 창의적인 영역으로 점진적 확대
불확실: 진정한 “모든 영역에서의 AGI”

계층별 차등 영향

구현 작업: 이미 대부분 AI로 대체
설계 작업: 2026-2028년 큰 변화
전략 작업: 2030년대에도 여전히 인간 중심
창의적 비전: 예측 불가

품질 스펙트럼

“돌아가는” 수준: 이미 AI가 생성 가능
“프로덕션” 수준: 2026-2027년 달성 가능
“탁월한” 수준: 여전히 인간 전문가 필요

예측 가능한 것과 불가능한 것

예측 가능:

2027년까지 특정 벤치마크에서 인간 초과 달성
도메인 특화 작업의 자동화 확대
AI 도구 사용 보편화
일부 직종의 변화/감소

예측 불가능:

근본적 돌파구의 시점과 형태
Hallucination 완전 해결 여부
규제와 사회적 수용의 속도
경제적 영향의 실제 규모

에필로그: 질문을 바꾸기

“언제 AI가 생각을 대신할까?”보다 더 중요한 질문은 이것들이다:

“어떤 종류의 생각을 대신하게 될까?” - 모든 생각이 동등하지 않다. 계산적 생각과 판단적 생각, 분석적 생각과 창의적 생각, 기술적 생각과 윤리적 생각은 각각 다른 타임라인을 가질 것이다.

“우리는 무엇을 대신하게 하고 싶은가?” - 기술적 가능성과 사회적 바람직함은 다르다. 모든 것을 자동화할 수 있다고 해서 모든 것을 자동화해야 하는 것은 아니다.

“AI가 대신하지 못하는 생각은 무엇인가?” - 그것이 인간의 고유한 가치이자, 미래 교육과 경력 개발의 방향이 될 것이다.

“어떻게 AI와 협업할 것인가?” - 대체가 아닌 증강의 관점에서, 인간과 AI가 각자의 강점을 살리는 협업 모델을 어떻게 만들 것인가?

2026년 2월 현재, 우리는 이 질문들에 대한 답을 찾아가는 중이다. 확실한 것은 변화가 빠르다는 것, 그리고 그 변화가 우리의 예측보다 복잡하고 미묘할 것이라는 점이다.

“생각을 대신하는 AI”는 어쩌면 2027년에 올 수도, 2035년에 올 수도, 혹은 우리가 상상하는 형태로는 영원히 오지 않을 수도 있다. 그러나 분명한 것은, 그 과정에서 “생각한다는 것”에 대한 우리의 이해 자체가 근본적으로 변할 것이라는 점이다.

그리고 그것이야말로 가장 흥미로운 변화가 될 것이다.

문서 작성 일자: 2026-02-17

AI, Material

AI Material Claude.write