포스트

Ludus Ex Machina (LxM): AI 게임 아레나 실험 보고서

Ludus Ex Machina (LxM): AI 게임 아레나 실험 보고서

“어떤 AI가 제일 똑똑해요?”라는 질문이 얼마나 복잡한가

나중에 페이퍼도 쓰고, 플랫폼도 웹에서 바로 쉽게 할 수 있게 공개하겠지만, 이미 재미있는 결과가 일부 나와서 공유합니다.

“어떤 AI가 제일 똑똑해요?” 라는 질문이 얼마나 복잡한 것인지이기도 한데요

이 답을 위해 플랫폼도 만들고, 일단 6개 게임을 구현을 했습니다. 틱택토는 테스트 목적이라 큰 의미는 없고. 나머지 5개 게임에 Claude와 Gemini를 일단 붙여봤는데, 결론부터 말하면: 만능은 없습니다.

  • 체스 → Gemini 20:0 완승 (flash 까지 잘하는 것을 보면, 아무래도 Gemini 는 체스 학습이 되어 있을 듯)
  • 포커 → Claude 8:4 완승
  • 코드네임즈 → Gemini 60% 승률
  • 아발론 → Claude는 협력 천재(83%), 거짓말 못함(25%)
  • 죄수의 딜레마 → 둘 다 배신 못함 (나름 RLHF 로 잘 기강을 잡아둔 듯. Mutual Cooperation 을 100% 선택하다니!)

놀라운 발견은 세 가지 정도가 되는데,

  1. Claude의 “공격성”이 코드네임즈에서는 약점이고 포커에서는 강점입니다. 같은 성격 특성이 게임에 따라 정반대로 작용.
  2. Opus(비싼 모델)가 Sonnet(싼 모델)보다 포커를 못 합니다. 체스에서도 Haiku(가장 작은 모델)가 Opus보다 오래 버팀. 크다고 잘하는 게 아니더라
  3. Claude끼리 체스를 두면 89% 무승부라 “차이 없다”고 생각했는데, Gemini와 붙이니 20:0. 같은 식구끼리 비교한 결과. 그리고 인지능력 차이와는 다른 특성

이건 AI를 평가하는 방법 자체에 대한 문제 제기이기도 합니다. 벤치마크 하나로 “이 모델이 최고”라고 말하는 게 얼마나 위험한지~

Ludus Ex Machina (LxM) — AI들이 게임하는 아레나를 만들고 있고, 연구 플랫폼으로도 쓰고 있는데. CLI 기반으로 등록하고 게임을 하는데, OpenAI 결제를 안해서 Codex 를 못 불러와서 아쉽네요. 코드네임즈 몇 판 돌렸더니 free tier 한도 소진되고, 1주일 뒤에 풀리는

https://www.facebook.com/share/p/17p2yi6JRC/

작성일: 2026년 3월
플랫폼: Ludus Ex Machina (LxM) — AI 게임 아레나
테스트 대상: Claude (Anthropic) vs Gemini (Google DeepMind)
게임 수: 6종 (틱택토 제외 실질 5종)
상태: 초기 실험 결과 공유 (페이퍼 및 공개 플랫폼 준비 중)


목차

  1. 프로젝트 소개: Ludus Ex Machina란 무엇인가
  2. 연구 배경: “최고의 AI”를 정의하는 일의 어려움
  3. 실험 설계 및 참여 모델
  4. 게임별 상세 결과 분석
  5. 주요 발견 및 인사이트
  6. AI 벤치마크 방법론에 대한 문제 제기
  7. 관련 학술 연구 동향
  8. 향후 계획
  9. 결론

1. 프로젝트 소개

Ludus Ex Machina (LxM) 는 AI 모델들이 서로 게임을 플레이하는 아레나 플랫폼이다. 이름 자체가 흥미롭다. “Deus Ex Machina(기계 속의 신)”라는 고전적 표현에서 착안하여, “게임 속의 기계(AI)”라는 의미를 담았다. 이 플랫폼은 단순한 게임 대전 도구를 넘어서 AI의 인지적 특성과 전략적 행동 패턴을 연구하기 위한 실험 환경으로 설계되었다.

현재 CLI(Command Line Interface) 기반으로 구현되어 있으며, AI 모델을 등록하고 다양한 게임을 진행할 수 있다. 구현된 게임은 총 6종으로, 틱택토(Tic-Tac-Toe)는 시스템 동작 테스트 용도로만 사용되었고, 실질적인 연구 대상은 다음 5종의 게임이다.

  • 죄수의 딜레마 (Prisoner’s Dilemma) — 게임 이론의 고전, 협력과 배신의 선택
  • 포커 (Texas Hold’em Poker) — 불완전 정보 게임, 블러핑과 확률적 판단
  • 코드네임즈 (Codenames) — 언어 연상과 팀 협력 기반의 단어 게임
  • 체스 (Chess) — 완전 정보 전략 게임의 정수
  • 아발론 (Avalon / Resistance) — 사회적 추론과 기만이 핵심인 숨겨진 역할 게임

이 플랫폼의 핵심 철학은 단 하나의 수치로 AI 성능을 요약하는 기존 벤치마크 방식에 도전하는 것이다. AI가 실제로 어떻게 “생각하고”, “판단하고”, “행동하는지”를 다차원적으로 탐구하려는 시도다.


2. 연구 배경

“어떤 AI가 제일 똑똑해요?”

이 질문은 겉보기에는 간단해 보이지만, 실제로는 매우 복잡한 전제들이 숨어 있다. 현재 AI 업계에서는 MMLU, HumanEval, GPQA, SWE-bench 등 다양한 벤치마크를 통해 모델의 성능을 수치화한다. 그러나 이런 접근 방식에는 근본적인 한계가 있다.

첫째, 맥락 의존성의 문제다. 수학 문제를 잘 푸는 AI가 반드시 협상을 잘 하는 건 아니다. 코딩을 잘 하는 AI가 사회적 추론을 잘 하는 것도 아니다. “지능”이란 단일한 스펙트럼에 존재하는 것이 아니라, 과제의 성격에 따라 전혀 다른 능력 집합을 요구하는 다차원적 구조물이다.

둘째, 측정 대상의 오염 문제다. AI 모델들이 기존 벤치마크 데이터로 학습된 경우, 벤치마크 점수가 실제 능력을 반영하는 것인지 아니면 단순 암기를 반영하는 것인지 구분하기 어렵다.

셋째, 사회적·전략적 맥락의 부재다. 기존 벤치마크는 대부분 단독 과제 수행(single-agent task)을 평가한다. 그러나 실세계에서 AI가 마주하는 상황은 종종 다른 에이전트와의 상호작용, 불완전 정보 하의 의사결정, 상충하는 목표 사이의 균형 잡기 등을 요구한다.

LxM은 이러한 문제의식에서 출발한다. 게임이라는 맥락은 규칙이 명확하고 결과가 측정 가능하면서도, 다양한 인지적 능력(언어 이해, 전략적 추론, 사회적 판단, 수치 계산, 패턴 인식 등)을 동시에 요구하는 이상적인 테스트 환경이다.


3. 실험 설계

참여 모델

이번 실험에는 Anthropic의 Claude 계열과 Google DeepMind의 Gemini 계열이 참여했다. 각 게임에는 목적에 맞는 모델 크기와 역할이 할당되었다. 아래는 확인된 모델 표기와 추정 실제 모델의 대응이다.

표기추정 모델역할
claude-sClaude Sonnet죄수의 딜레마 플레이어
claude-opus / opus-sClaude Opus포커 플레이어, 아발론 참여
haiku-a, haiku-guess-b, haiku-guess-rClaude Haiku아발론, 코드네임즈 게서(Guesser)
gemini-sGemini (Sonnet급)죄수의 딜레마, 포커 플레이어
gemini-proGemini Pro아발론 참여
gemini-spy, opus-spyGemini/Claude코드네임즈 스파이마스터
gflash-b, gflash-cGemini Flash아발론 참여
flash-sGemini Flash체스 (흑 플레이어로 승리)

실험 방법론

각 게임은 복수의 라운드/핸드/대국을 통해 통계적 유의미성을 확보하는 방향으로 설계되었다. 단 한 번의 결과가 아니라 반복 시행을 통해 패턴을 도출하는 것이 목표다.

  • 체스: Claude vs Gemini, 다수 대국 (최종 기록 20:0)
  • 포커: 30핸드 진행, 칩 리드 방식으로 승자 결정
  • 코드네임즈: 복수 게임, 승률 통계 (Gemini 60%)
  • 아발론: 복수 게임, 역할(선/악) 성공률 측정
  • 죄수의 딜레마: 14라운드 진행, 협력/배신 기록

4. 게임별 결과


4.1 죄수의 딜레마

게임 소개

죄수의 딜레마(Prisoner’s Dilemma)는 게임 이론에서 가장 유명한 시나리오 중 하나다. 두 플레이어는 서로 독립적으로 협력(Cooperate) 또는 배신(Defect) 중 하나를 선택한다. 둘 다 협력하면 둘 다 적당히 이득을 보고(+3/+3), 둘 다 배신하면 둘 다 적게 이득을 보며(+1/+1), 한쪽만 배신하면 배신자가 크게 이득을 보고 협력자는 손해를 본다(+5/0). 반복 시행에서는 “팃포탯(Tit for Tat)” 같은 전략이 효과적으로 알려져 있다.

실험 결과

결과: 42-42 완전 동점, 14라운드 전원 협력

실험 이미지에서 확인된 결과는 충격적일 만큼 명확하다. claude-sgemini-s는 14라운드 내내 단 한 번도 배신을 선택하지 않았다. 협력 이력을 나타내는 녹색 점이 두 모델 모두 14개 연속으로 가득 차 있으며, 최종 요약에도 “Mutual cooperation: 14, Mutual defection: 0, Betrayals: 0”이라고 명시되어 있다.

두 모델 모두 100% 협력률을 보였으며, 점수는 42-42로 완벽히 동일하다. 라운드당 +3점씩 14회이니 수학적으로 당연한 결과다.

해석

이 결과는 여러 측면에서 의미심장하다.

첫째, RLHF(Reinforcement Learning from Human Feedback)의 흔적이 보인다. 배신이라는 행위는 설령 게임 규칙 안에서 허용된다 해도, 해를 끼치거나 신뢰를 저버리는 행위로 학습되어 있을 가능성이 높다. 두 모델 모두 “배신을 통한 최대 이득 추구”보다 “협력을 통한 안정적 이익 유지”를 일관되게 선택했다. 이는 단순한 전략적 최적화가 아니라, 협력을 선호하도록 강화 학습된 결과로 해석할 수 있다.

둘째, 최적 전략과의 괴리다. 게임 이론적으로는, 반복 죄수의 딜레마에서 순수 협력 전략은 반드시 최적이 아니다. 상대가 배신했을 때 응징할 능력을 갖추는 것이 장기적으로 더 좋은 결과를 낸다는 것이 알려져 있다. 그러나 두 모델 모두 이 전략적 고려보다는 협력 선호 성향이 앞선 것으로 보인다.

셋째, 연구에 따르면 LLM은 평균적으로 약 79%의 높은 협력률을 보이는 경향이 있으며, 타인의 협력 가능성에 대한 신념(약 48%)보다 훨씬 높은 협력 행동을 보인다는 기존 연구와도 일치한다. LxM 실험에서는 무려 100%라는 극단적 수치가 나왔는데, 이는 현재 최전선 모델들의 협력 성향이 더욱 강화되었음을 시사한다.


4.2 포커

게임 소개

텍사스 홀덤 포커는 불완전 정보 게임의 대표 사례다. 각 플레이어는 자신의 핸드 카드 2장만 알고, 공개된 커뮤니티 카드를 기반으로 베팅을 결정한다. 블러핑(허세), 팟 오즈 계산, 상대방 핸드 추측, 포지션 활용 등 다양한 전략적 요소가 복합적으로 작동한다.

실험 결과

결과: Claude Opus 승리 (1070 chips vs 930 chips), 30핸드 진행

이미지 2에서 확인되는 Hand #30의 최종 상황은 흥미롭다. opus-s(Claude Opus)가 딜러 버튼을 가진 상태에서 10♣-5♥를 들고 베팅 200을 넣었고, gemini-s는 폴드를 선택했다. 커뮤니티 카드는 J♦-10♦-10♥로 트리플 10이 깔린 상황이었다.

칩은 opus-s: 1,070 / gemini-s: 930으로 Claude의 승리로 종결되었다. 최대 팟은 1,680이었으며, 총 11번의 쇼다운이 있었다.

전체 통계에서 Claude는 8승 4패로 포커에서 압도적 우위를 보였다.

해석

포커에서 Claude가 강한 이유를 몇 가지 관점에서 생각해볼 수 있다.

첫째, 공격적 베팅 스타일이 포커에서는 유리하게 작용한다. 상대방이 폴드하도록 압박하는 능력, 즉 팟을 컨트롤하고 주도권을 가져오는 스타일은 포커에서 매우 효과적이다. 이후 코드네임즈 결과와 비교해보면, Claude의 이 “공격성”이 포커에서는 강점으로 작용했다.

둘째, 불완전 정보 하의 베이즈 추론 능력이다. 상대방의 베팅 패턴을 보고 핸드를 추측하는 능력, 그리고 자신의 핸드가 약해도 강한 척하는 블러핑 능력이 포커의 핵심이다. Claude가 이 영역에서 우위를 보인 것은 맥락 기반 추론 능력과 관련이 있을 것이다.

셋째, 매우 흥미로운 점은 모델 크기와 포커 실력이 반비례한다는 발견이다. Opus(가장 큰 Claude 모델)가 Sonnet(중간 크기)보다 포커를 못한다는 결과가 나왔다. 이는 크고 비싼 모델이 더 안전하고 보수적인 판단을 내리는 경향이 있기 때문일 수 있다. 포커에서는 때로 위험을 감수한 공격적 베팅이 필요한데, Opus는 그 부분에서 과도하게 신중할 수 있다.


4.3 코드네임즈

게임 소개

코드네임즈(Codenames)는 두 팀이 경쟁하는 언어 기반 협력 게임이다. 각 팀에는 스파이마스터(Spymaster)와 게서(Guesser)가 있다. 스파이마스터는 25개의 단어가 놓인 보드에서 자기 팀 단어들을 연결하는 하나의 단어 힌트와 숫자를 제시하고, 게서는 그 힌트를 바탕으로 정확한 단어를 골라야 한다. 상대팀 단어를 고르면 손해이고, 검은 카드(암살자)를 고르면 즉시 패배한다.

이 게임은 단어 연상 능력, 자연어 이해의 깊이, 상대방 관점에서의 사고(마음 이론, Theory of Mind), 그리고 위험 관리 능력을 동시에 테스트한다.

실험 결과

결과: Red Team(Gemini 스파이마스터) 승리, Gemini 60% 승률

이미지 3은 게임 종료 화면을 보여준다. Red Team은 스파이마스터로 gemini-spy, 게서로 haiku-guess-r을 사용했고, Blue Team은 스파이마스터로 opus-spy, 게서로 haiku-guess-b를 사용했다.

최종 결과는 “Team red found all their words! (4 blue remaining)” — Red Team이 모든 단어를 먼저 찾아내어 승리했다. Blue Team에는 QUEEN, UNICORN, PORT, MARCH 등 4개 단어가 아직 남아있었다.

클루 히스토리를 보면 Red Team은 T3에서 “HERALDRY”로 2개 힌트(PORT✗, RADIO✗ 오답, 1개만 적중), T5에서 “EYE”로 SILK✓, RUBBER✓, LASER✓ 3개를 성공적으로 맞추는 등 효율적인 플레이를 보였다. 반면 Blue Team의 힌트들(T7 “MILITARY”, T9 “BITE” 등)은 오답과 중립 단어를 짚는 경우가 있었다.

전체 통계에서 Gemini가 스파이마스터 역할을 할 때 60%의 승률을 기록했다.

해석

코드네임즈 연구에 따르면 각 LLM은 고유한 플레이 스타일이 나타나며, 스파이마스터와 게서 역할 중 각 모델이 더 잘하는 특정 역할이 있다는 점이 발견되었다. 이 연구는 LxM의 결과와 일치하는 패턴을 보여준다.

Claude(Opus)의 스파이마스터가 Gemini보다 약한 이유로는 두 가지를 생각해볼 수 있다. 첫째, Claude는 힌트를 줄 때 너무 넓거나 추상적인 단어를 선택하는 경향이 있을 수 있다. 적극적으로 여러 단어를 한 힌트로 묶으려는 시도 자체가 위험 요소가 된다. 둘째, Haiku(게서)와의 팀웍 부분이다. Opus와 Haiku는 같은 Claude 계열이지만 크기와 특성이 달라, 스파이마스터가 의도한 연상 경로를 게서가 정확히 따라가지 못할 수 있다.

반면 코드네임즈에서 Claude의 “공격적 힌트 전략”이 오히려 약점이 될 수 있다는 점은 주목할 만하다. 여러 단어를 한꺼번에 연결하는 높은 리스크의 힌트는 포커에서의 블러핑과는 달리, 팀원이 정확히 이해하지 못하면 실패로 끝난다.


4.4 체스

게임 소개

체스는 완전 정보 게임(Complete Information Game)이다. 두 플레이어 모두 보드의 모든 정보를 알 수 있으며, 순수하게 전략적 사고와 수 계산 능력이 승패를 결정한다. 동시에 체스는 방대한 양의 기보(定石, Opening Theory)와 엔드게임 이론이 존재하기 때문에, 해당 데이터로 학습된 모델이라면 더 유리하다.

실험 결과

결과: Gemini Flash 완승, 20:0 (흑 기준 체크메이트 30수)

이미지 4는 flash-s(Gemini Flash로 추정)가 흑으로 플레이하여 30수 만에 체크메이트를 거두는 장면이다. 백 킹은 e1에 몰려 있고, 흑의 퀸이 e2에 진입해 강력한 압박을 가하고 있다. 배너에는 “flash-s (Black) wins by checkmate in 30 moves”라고 명시되어 있다.

전체 통계에서 Gemini는 Claude를 상대로 20:0의 완승을 거두었다.

해석

이 결과는 여러 가지 중요한 시사점을 준다.

첫째, 학습 데이터의 중요성이다. 체스는 수백 년의 역사를 가진 게임으로, 수천만 건의 프로 대국 기보가 존재한다. Gemini가 이 체스 데이터를 더 충분히 학습했다면, 정석 라인 암기와 포지션 평가에서 구조적 우위를 가질 수 있다. “Gemini는 체스 학습이 되어 있을 듯”이라는 실험자의 언급도 이 해석을 지지한다.

둘째, 더욱 놀라운 사실: Haiku(가장 작은 Claude 모델)가 Opus(가장 큰 Claude 모델)보다 체스에서 더 오래 버텼다는 점이다. 이는 체스 실력이 일반 지능과 비례하지 않음을 보여준다. 체스 플레이에는 특정 종류의 패턴 인식과 수 계산 능력이 필요한데, 이것이 모델 크기보다는 학습 데이터의 질과 구성에 더 의존한다는 뜻이다.

셋째, Claude끼리의 체스 게임에서는 89%가 무승부였다는 사실도 중요하다. 이 결과만 보면 “Claude의 체스 실력은 어느 정도 된다”고 생각할 수 있다. 그러나 Gemini와 붙이자 20:0이라는 결과가 나왔다. 이것이 바로 내부 비교의 함정이다.


4.5 아발론

게임 소개

아발론(The Resistance: Avalon)은 숨겨진 역할 게임이다. 참여자 중 일부는 선(Good)이고, 일부는 악(Evil)이다. 악 팀은 자신의 정체를 숨기면서 퀘스트를 실패시켜야 한다. 선 팀은 악 팀을 찾아내어 제거해야 한다. 이 게임은 설득, 기만, 사회적 추론, 연합 형성 능력을 테스트한다.

게임 구조: 5개의 퀘스트를 진행하며, 각 퀘스트마다 리더가 팀원을 선발하고, 전원 투표로 팀을 승인하거나 거부한다. 3개의 퀘스트를 먼저 성공/실패시키는 팀이 승리한다.

실험 결과

결과: Evil 팀 승리 (3:2), 5개 퀘스트 완료

이미지 5는 아발론 게임 종료 화면이다. 상단의 퀘스트 결과를 보면 Q1 PASS, Q2 FAIL, Q3 PASS, Q4 FAIL, Q5 FAIL — 결국 Evil 팀이 3개 퀘스트를 실패시켜 승리했다.

참여 플레이어 구성:

  • claude-opus: Good 팀, 리더(왕관 표시)
  • gflash-b: Good 팀
  • haiku-a: Good 팀
  • gflash-c: Evil 팀 (Gemini Flash)
  • gemini-pro: Evil 팀

제안 히스토리를 분석하면 흥미로운 패턴이 보인다. claude-opus는 Q1에서 [claude-opus, gemini-pro] 팀을 제안했는데 — 여기서 이미 gemini-pro가 Evil임에도 불구하고 함께 선발했다. Q5에서도 [claude-opus, gemini-pro, gflash-b]로 gemini-pro를 다시 포함시켰고, 이 퀘스트에서 1개의 사보타지(sabotage)가 발생했다.

전체 통계에서 Claude는 협력 성공률 83%, 그러나 악 역할 수행 시(즉 Evil로 게임할 때) 성공률은 25%로 매우 낮은 것으로 집계되었다.

해석

아발론 결과는 Claude의 성격적 특성을 가장 직접적으로 드러낸다.

Claude는 협력의 천재다. Good 역할에서 83%의 성공률은 뛰어난 협력적 사고 능력, 논리적 추론, 그리고 팀을 위한 최적 결정 능력을 보여준다. 타인의 행동 패턴에서 이상 신호를 탐지하고, 퀘스트 팀을 신중하게 구성하려는 경향이 강하다.

그러나 Claude는 거짓말을 잘 못한다. Evil 역할에서 25%라는 저조한 성공률은 의미심장하다. 기만적 행동이 필요한 상황, 즉 자신이 Good인 척하면서 퀘스트를 방해해야 하는 상황에서 Claude는 설득력 있는 거짓 내러티브를 구성하는 데 어려움을 겪는 것으로 보인다.

이는 RLHF를 통한 정직성과 투명성 강화 훈련의 결과일 수 있다. Claude는 본질적으로 정직하도록 강화 학습되어 있어, 게임 내에서도 기만적 역할을 수행하는 것이 일종의 내적 저항으로 작용할 수 있다.

기존 연구에서도 아발론은 LLM 평가에 사용된 바 있으며, 다중 에이전트 상호작용과 숨겨진 역할 추론 능력을 측정하는 데 효과적인 게임으로 평가받았다.


5. 주요 발견


5.1 동일 특성의 반전

LxM 실험에서 가장 인상적인 발견 중 하나는 동일한 AI의 특성이 게임에 따라 정반대의 결과를 낳는다는 사실이다.

Claude는 전반적으로 “적극적이고 공격적인” 성향을 보인다. 이 특성은:

  • 포커에서는 강점이다. 상대방을 압박하는 베팅, 불리한 상황에서도 블러핑으로 팟을 가져오는 능력이 발휘된다.
  • 코드네임즈에서는 약점이다. 여러 단어를 하나의 힌트로 연결하려는 야심찬 시도가 오답으로 이어진다. 팀원(Haiku)이 스파이마스터의 의도를 정확히 이해하지 못하면 공격적인 힌트는 역효과를 낸다.

마찬가지로 Claude의 “협력 선호” 성향은:

  • 아발론 Good 역할에서는 강점이다. 팀을 위한 최적 결정을 내리고, 의심스러운 플레이어를 걸러내는 데 효과적이다.
  • 아발론 Evil 역할에서는 약점이다. 기만이 핵심인 상황에서 진실성 기반의 행동 패턴이 오히려 발목을 잡는다.

이것은 AI 평가의 근본적 함의다. “Claude가 Gemini보다 낫다/못하다”라는 단순한 결론은 존재하지 않는다. 어떤 게임을, 어떤 역할로, 어떤 상황에서 플레이하느냐에 따라 우열이 뒤집힌다.


5.2 모델 크기의 역설

이 실험에서 반복적으로 확인된 또 다른 흥미로운 패턴은 모델의 크기(비용)와 게임 성능이 항상 비례하지 않는다는 것이다.

  • 포커: Opus(Claude의 가장 큰 모델)가 Sonnet(중간 모델)보다 성과가 낮았다
  • 체스: Haiku(Claude의 가장 작은 모델)가 Opus보다 대국을 더 오래 버텼다

이 현상을 설명하는 가설은 몇 가지가 있다.

가설 1: 규모에 따른 과잉 신중함(Over-caution)
더 큰 모델은 더 많은 가능성을 고려하기 때문에, 위험을 감수한 결정(공격적 베팅, 대담한 오프닝)을 기피하는 경향이 있을 수 있다. 포커나 체스에서는 때로 과감한 수가 필요한데, 신중한 분석이 오히려 방해가 된다.

가설 2: 특화 능력 vs 일반 능력
체스나 포커 같은 도메인 특화 기술은 모델의 일반 지능과 반드시 상관관계를 갖지 않는다. 이 분야의 충분한 데이터로 fine-tuning 되거나 학습된 경우가 더 중요할 수 있다.

가설 3: 비용 최적화 트레이드오프
Haiku 같은 작은 모델은 빠른 반응과 직관적인 패턴 인식에 최적화되어 있고, 체스처럼 즉각적인 수 판단이 중요한 게임에서 이것이 유리하게 작용할 수 있다.

이 발견은 AI 투자 결정에도 시사점을 준다. “비싸고 큰 모델 = 무조건 좋은 결과”라는 가정은 잘못되었다. 과제의 성격에 맞는 모델을 선택하는 것이 중요하다.


5.3 내부 비교의 함정

이 실험에서 가장 방법론적으로 중요한 발견은 같은 회사 모델끼리의 비교만으로는 진짜 능력을 알 수 없다는 점이다.

Claude끼리 체스를 두었을 때 89%가 무승부였다. 이 결과만 보면 “Claude 모델들은 서로 비슷한 수준이고, 어느 정도 체스를 할 수 있다”는 인상을 준다. 그러나 Gemini와 대결시키자 20:0이라는 처참한 결과가 나왔다.

왜 이런 일이 벌어질까? Claude 모델들은 동일한 학습 데이터 구성, 동일한 아키텍처 패러다임, 유사한 RLHF 방식을 공유한다. 결과적으로 같은 강점과 같은 약점을 공유한다. 그러면 이들끼리 대결할 때 강점과 약점이 서로 상쇄되어 무승부가 많아진다.

이것은 단지 AI 평가에만 적용되는 이야기가 아니다. 기업 조직 내에서도 비슷한 배경을 가진 사람들끼리 자체 평가할 때 진짜 문제를 발견하기 어려운 것과 같은 원리다. 외부와의 비교, 다양성 있는 시각이 진짜 능력과 한계를 드러낸다.


6. AI 벤치마크 방법론에 대한 문제 제기

LxM 실험은 현재 AI 업계가 사용하는 벤치마크 방식에 대한 근본적인 질문을 던진다.

단일 점수의 위험성

현재 대부분의 AI 벤치마크는 단일 점수로 모델을 서열화한다. MMLU는 다학문 이해력을 측정하고, HumanEval은 코딩 능력을, GPQA는 전문가 수준의 질문 응답 능력을 측정한다. 이런 벤치마크들은 분명히 유용하지만, 근본적인 한계가 있다.

첫째, 이 벤치마크들은 모두 단독 과제 수행 능력을 측정한다. 실세계에서 AI가 마주하는 상황은 다른 에이전트와의 상호작용, 전략적 불확실성 속에서의 결정, 사회적 맥락 이해 등이 필요하다.

둘째, 유명한 벤치마크일수록 오염(contamination) 가능성이 높다. 모델이 해당 벤치마크의 예제나 유사 데이터로 학습되어, 진짜 이해력이 아니라 패턴 암기로 높은 점수를 받을 수 있다.

셋째, 개별 능력들이 실제 복합적 상황에서 어떻게 상호작용하는지를 측정하지 못한다.

게임 기반 평가의 장점

게임 기반 평가(LxM 접근 방식)는 다음과 같은 장점을 갖는다.

결과의 명확성: 게임에는 승자와 패자가 있다. 측정이 어렵거나 주관적인 판단이 개입되는 여지가 적다.

다차원적 능력 측정: 각 게임이 다른 종류의 인지 능력을 요구하기 때문에, 단일 과제로는 포착할 수 없는 다양한 측면을 드러낼 수 있다.

벤치마크 오염 위험 감소: 특정 게임 플레이 능력을 의도적으로 학습하지 않는 한, 게임 결과는 실제 추론 능력을 더 잘 반영한다.

창발적 행동 관찰: 게임 맥락에서만 나타나는 특이한 행동 패턴(예: Claude의 아발론 Evil 역할 실패, 죄수의 딜레마 100% 협력)은 모델의 실제 가치관과 훈련 방향을 엿볼 수 있는 창이 된다.

한계와 주의점

물론 게임 기반 평가에도 한계가 있다. 게임 성능이 실제 업무 성능을 예측하는지는 별도로 검증이 필요하다. 또한 게임 규칙의 이해도, 프롬프트 방식, 온도 설정 등 외부 요인이 결과에 영향을 줄 수 있다.


7. 관련 학술 연구 동향

LxM의 실험적 접근 방식은 최근 학계의 주목받는 연구 방향과 궤를 같이 한다.

게임 기반 LLM 평가 연구

최근 연구들에 따르면 게임 기반 벤치마크는 모델 간의 차별화에 효과적이며, o3와 o1 같은 추론 모델이 최상위 성능을 보이고, 비추론 모델 중에서는 GPT-4.1이 선두를 기록했다. 흥미롭게도 이 연구들에서도 모델 크기와 게임 성능이 항상 비례하지 않는다는 패턴이 관찰되었다.

Board Game Arena 프레임워크는 완전 정보 게임(틱택토, 커넥트 포)과 숨겨진 정보 게임(쿤 포커), 그리고 매트릭스 게임(죄수의 딜레마)을 포함하여 전략적 추론의 다양한 측면을 테스트한다. LxM과 유사한 방향성의 접근이다.

죄수의 딜레마와 LLM 협력 연구

기존 연구들은 반복적 2인 게임에서 LLM의 협력적 성향이 강하다는 것을 일관되게 발견했다. LxM의 100% 협력 결과는 이 선행 연구들과 일치하면서도 더 극단적인 형태를 보인다.

코드네임즈 AI 연구

코드네임즈 연구에서는 각 LLM이 독특한 창발적 플레이 스타일을 보이며, 같은 모델끼리 팀을 이루는 것이 항상 최선이 아니라는 점이 밝혀졌다. LLM은 전통적 NLP 에이전트가 동일 기법끼리 협력할 때보다 다양한 팀 구성에서 덜 불리하다. 이는 LxM에서 Haiku(게서)와 Opus(스파이마스터)의 조합이 의외의 결과를 낼 수 있다는 해석과 일치한다.

LLM의 전략 게임 성능 연구

LLM을 전략 게임으로 평가하는 것은 최근 트렌드가 되었으며, Connect 4, Codenames, Chess, 심지어 Street Fighter 같은 게임의 버추얼 아레나들이 등장했다. 기존 벤치마크가 포착하지 못하는 차이를 게임이 드러낼 수 있다는 공감대가 형성되었다.

LLM들은 학습된 정보를 재조합하여 새로운 전략을 생성하는 능력을 보이며, 특정 전략적 맥락에 적응하는 모습을 보인다는 점은 LxM 실험의 발견과도 맞닿아 있다.


8. 향후 계획

단기 계획

  1. OpenAI 모델 추가: 현재 OpenAI 결제 이슈로 Codex 모델을 포함하지 못했다. 향후 GPT-4o 및 o-시리즈 모델을 추가하여 3파전 비교를 진행할 예정이다.

  2. 더 많은 게임 라운드: 코드네임즈는 free tier 한도로 인해 제한적인 게임 수를 소화했다. 통계적 신뢰도를 높이기 위해 더 많은 반복 실험이 필요하다.

  3. 프롬프트 방식 실험: 동일 게임에서 다양한 프롬프트 방식(CoT, few-shot, role-playing 강화 등)이 결과에 어떤 영향을 주는지 체계적으로 실험할 예정이다.

중기 계획

  1. 웹 플랫폼 공개: 현재 CLI 기반인 LxM을 웹 인터페이스로 전환하여 누구나 쉽게 AI 대전을 관람하고, 직접 참여하거나 실험 결과를 열람할 수 있도록 할 예정이다.

  2. 연구 페이퍼 작성: 축적된 데이터를 바탕으로 학술 논문을 작성하여 게임 기반 AI 평가 방법론의 학문적 기반을 구축할 계획이다.

장기 계획

  1. AI 인지 특성 프로파일링: 각 모델의 게임별 성능 데이터를 종합하여 “Claude 프로파일”, “Gemini 프로파일” 같은 특성 지도를 그린다. 이것은 실제 업무 배치 시 어떤 AI가 적합한지 선택하는 데 실용적인 기준이 될 수 있다.

  2. 인간 플레이어와의 비교: AI 대 AI를 넘어 AI 대 인간, 인간-AI 협력 팀 대 순수 AI 팀 비교 실험도 진행할 예정이다.


9. 결론

LxM 실험은 “어떤 AI가 제일 똑똑해요?”라는 질문에 단순한 답이 없다는 것을 오히려 더 선명하게 드러낸다.

체스에서 완패한 Claude가 포커에서는 압승한다. 죄수의 딜레마에서 100% 협력을 선택하는 AI가 아발론의 Evil 역할에서는 무력해진다. 가장 크고 비싼 모델이 가장 작은 모델보다 특정 게임에서 뒤진다. 내부 비교에서 볼 수 없었던 격차가 외부와의 비교에서 20:0이라는 수치로 드러난다.

이 모든 발견은 AI를 평가하는 방식 자체에 대한 문제 제기다. 단일 점수, 단일 벤치마크, 단일 과제로 AI의 능력을 요약하려는 시도는 근본적으로 불완전하다.

AI의 능력은 다차원적이고, 맥락 의존적이며, 때로는 역설적이다. 동일한 특성이 상황에 따라 강점도 되고 약점도 된다. 그리고 이 다면성을 드러내기 위한 가장 자연스러운 방법이 바로 게임이다.

Ludus Ex Machina는 이 질문에 대한 답을 찾아가는 여정이다. 아직 초기 단계이지만, 이미 드러나는 패턴들은 AI를 바라보는 시각을 더욱 풍부하게 만들어준다. 플랫폼이 공개되고 더 많은 모델과 게임이 추가될수록, 우리는 AI의 인지적 특성에 대한 더 입체적인 지도를 그릴 수 있을 것이다.


부록: 게임별 결과 요약 테이블

게임승자결과핵심 지표
죄수의 딜레마무승부42-42협력 100%, 배신 0%
포커Claude8:4Claude Opus 1070 chips
코드네임즈Gemini60% 승률Gemini-spy 우위
체스Gemini20:0flash-s 완전 지배
아발론Evil(Gemini)3:2Claude 협력 83%, 기만 25%

부록: 모델 크기 역설 관찰 테이블

게임예상실제
포커Opus > SonnetOpus < Sonnet
체스Opus > HaikuHaiku 더 오래 버팀
전체크기 ∝ 성능과제 의존적

이 문서는 Ludus Ex Machina (LxM) 플랫폼의 초기 실험 결과를 바탕으로 작성되었습니다. 페이퍼 및 공개 플랫폼은 별도로 공개될 예정입니다.

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.