클로드 코드 + 자동 연구(Auto Research) = 스스로 발전하는 AI

게시 2026/03/14

By BLUEBUG

23 분읽는 시간

원본 영상: YouTube - Claude Code + Auto Research
핵심 주제: Andrej Karpathy의 Auto Research 패턴을 비즈니스 자동화에 적용하는 방법

1. Karpathy의 Auto Research란?

Andrej Karpathy는 AI 및 머신러닝 분야에서 가장 저명한 연구자 중 한 명으로, OpenAI 및 Tesla에서 AI 개발을 이끈 인물이다. 그는 자신의 언어 모델(LLM)을 훈련시키는 과정에서 이런 질문을 던졌다.

“왜 내가 직접 모델을 훈련시키는 대신, AI 모델이 다른 AI 모델을 훈련시키게 하지 않을까?”

이 아이디어에서 탄생한 것이 바로 Auto Research다.

Auto Research의 핵심 개념

Auto Research는 AI 에이전트에게 작지만 실제로 작동하는 LLM 훈련 환경을 제공하고, 밤새 자율적으로 실험하도록 내버려 두는 파이프라인이다. 구체적인 작동 방식은 다음과 같다.

AI가 코드를 수정한다
5분간 훈련을 실행한다
결과가 개선되었는지 확인한다
개선되었으면 유지, 그렇지 않으면 폐기한다
이 과정을 반복한다

아침에 일어나면 실험 로그와 함께 (이상적으로는) 더 나은 모델이 완성되어 있다.

Auto Research의 실제 성과

Karpathy의 실험에서 초기 베이스라인(Validation BPB, 모델의 정확도 측정값)은 높은 값에서 시작했고, 단 몇 번의 실험 반복만으로 수치가 크게 낮아지는(즉, 모델 성능이 개선되는) 결과를 보여주었다. 이는 하이퍼파라미터(hyperparameter) 조정을 통해 달성되었다.

2. 비즈니스에서의 실제 적용 사례

영상의 제작자는 머신러닝 엔지니어가 아니라 AI 모델을 활용해 수익을 창출하는 실무자다. 그는 Karpathy의 Auto Research 원리를 자신의 비즈니스에 즉시 적용하는 방법을 고민했고, 다양한 활용 사례를 소개한다.

2-1. 콜드 이메일 최적화 (핵심 사례)

콜드 이메일(Cold Email)은 한 번도 만나지 않은 사람들에게 매력적인 제안을 담아 발송하여 전환(통화 예약, 양식 작성 등)을 유도하는 마케팅 방법이다.

핵심 지표: 응답률(Reply Rate)

캠페인	응답률
캠페인 A	2.4%
캠페인 B	2.5%
(목표)	지속적 개선

Auto Research 파이프라인을 콜드 이메일에 적용하면:

측정 지표: 응답률
변수: 이메일 카피(문구)
실행 주기: 4시간마다 자동 반복

이를 통해 이메일 카피가 시간이 지남에 따라 자가 진화(self-evolving)하며 점점 더 높은 응답률을 달성하게 된다.

2-2. 랜딩 페이지 전환율 최적화 (CRO)

측정 지표: 전환율(Conversion Rate)
방법: Wix, WordPress, Webflow 등의 웹빌더 API를 통해 랜딩 페이지를 자동 수정
프로세스: 변경 → 테스트(약 1일) → 승자 선택 → 반복

2-3. 광고 크리에이티브 최적화

측정 지표: 전환율(CVR)
플랫폼: Facebook, Google Ads API 활용
특이사항: Facebook, Google은 이미 자체적인 자동화 기능을 제공하지만, Claude Opus 4.6, GPT-5 등 최신 모델을 활용하면 더욱 효과적인 최적화가 가능하다.

2-4. 고객 서비스 챗봇 스크립트 최적화

측정 지표: 고객 만족도 점수(CSAT, Customer Satisfaction Score)
방법: 고객 서비스 에이전트(인간 또는 AI)가 사용하는 기본 템플릿을 자동으로 수정

2-5. 이커머스 상품 설명 최적화

측정 지표: 기간 내 판매 금액
방법: Amazon FBA 등의 플랫폼에 직접 API가 없는 경우, Chrome DevTools MCP를 통해 랜딩 페이지 내용을 자동 업데이트

2-6. 기타 활용 가능 분야

분야	측정 지표	API/도구
YouTube 제목	클릭률(CTR)	YouTube Data Analytics v3 API
뉴스레터 제목	오픈율	이메일 마케팅 플랫폼 API
가격 페이지	전환율	웹사이트 API
PPC 광고	ROAS	Google/Meta Ads API
SEO 페이지	검색 트래픽	Search Console API

3. Auto Research의 작동 원리

Auto Research의 실험 루프는 다음 5단계로 구성된다.

가설 설정 → 실험 실행 → 결과 측정 → 승자 선택 → 반복

단계별 설명

1단계: 가설 설정 (Hypothesis)

모든 것은 가설에서 시작한다. 예를 들어, “이 캠페인의 카피를 조금 더 임팩트 있게 수정하면 응답률이 올라갈 것이다”와 같은 가설이다. 이는 test.md 파일에 목표 지표와 개략적인 지침과 함께 입력한다.

2단계: 실험 실행 (Experiment)

Auto Research 에이전트가 API 호출을 통해 실험을 진행한다. Karpathy의 경우 하이퍼파라미터를 조정하는 방식으로, 이 사례에서는 이메일 카피를 수정하는 방식으로 실행된다.

3단계: 결과 측정 (Measure)

성공을 판단하기 위한 객관적인 지표가 필수적이다.

Karpathy의 경우: Validation Loss(검증 손실)
콜드 이메일의 경우: 응답률

4단계: 승자 선택 (Pick Winner)

두 캠페인(베이스라인 vs. 챌린저)을 비교하여 성과가 더 좋은 쪽을 선택한다.

5단계: 반복 (Loop)

선택된 승자가 새로운 베이스라인이 되고, 다음 실험이 시작된다. 피드백 루프가 촘촘할수록 더 빠르게 진화한다.

시간당 실험 가능 횟수 비교

수행 주체	시간당 실험 횟수
인간	1~2회
AI (1시간 루프)	24회/일
AI (5분 루프)	12회/시간 = 288회/일

인간보다 AI의 의사결정이 질적으로 낮을 수 있지만, 압도적인 실험 횟수가 이를 상쇄하고도 남는다. AI는 식사, 수면, 화장실 방문이 필요 없다.

4. Auto Research 시스템 설정 방법

필요 조건 세 가지

객관적으로 측정 가능한 지표 (응답률, 전환율, 클릭률 등)
입력값을 변경할 수 있는 API 접근 권한
실험을 반복 실행할 스케줄링 환경 (GitHub Actions, Modal 등)

설정 단계

Step 1: Auto Research 저장소 클론

Karpathy의 GitHub 저장소를 클론하여 전체 컨텍스트를 확보한다. 저장소에는 다음이 포함되어 있다.

Python 훈련 스크립트
프로젝트 설명
program.md (리서치 프로세스 전체를 관리하는 프롬프트)

git clone https://github.com/karpathy/auto-research

Step 2: Claude Code에서 목적 정의

개발 환경(VS Code, Anti-Gravity 등)에서 Claude Code를 열고 다음을 명시한다.

저는 Auto Research 폴더의 컨텍스트를 활용하여 유사한 시스템을 구축하려 합니다.
다만 검증 손실(validation loss)을 최적화하는 대신, 콜드 이메일의 응답률을 최적화합니다.
플랫폼: Instantly
변수: 이메일 카피
배포: GitHub Actions (1시간마다 실행)

Step 3: 시스템 구성 요소

Claude Code가 자동으로 생성하는 주요 파일들:

파일/폴더	역할
`orchestrator.py`	최상위 에이전트, 전체 프로세스 조율
`instantly_client.py`	Instantly API 호출 관련 클라이언트
`configs/`	베이스라인, 리소스, 토큰 설정
`resources.md`	누적 학습 결과 저장소
`.github/workflows/`	GitHub Actions 스케줄링 설정

Step 4: GitHub Actions 설정

  
# .github/workflows/autoresearch.yml 예시 구조
on:
  schedule:
    - cron: '0 * * * *'  # 매 시간 실행

매 시간 세 가지 작업이 실행된다.

Harvest (수확): 이전 실험 결과 수집
Generate (생성): 새로운 챌린저 카피 생성
Deploy (배포): 캠페인 생성, 리드 배정, 활성화

Step 5: API 키 설정

Instantly API 키: 설정 → 통합 → API 키 생성 (전체 범위 선택)
Claude API 키: Anthropic 대시보드에서 발급
GitHub, Slack 등 추가 서비스 연동

오케스트레이터 구조

오케스트레이터 (Orchestrator)
├── 서브 에이전트: 카피 작성
├── 도구: Instantly API 호출
├── 도구: 문서/JSON 결과 저장
└── 학습 로그: resources.md 업데이트

오케스트레이터는 마치 오케스트라의 지휘자처럼, 하위 에이전트와 도구들의 작동을 조율한다. 각 실행마다 기술적으로는 다른 에이전트 인스턴스이지만, resources.md에 누적된 이전 실험 결과를 컨텍스트로 전달받아 점점 더 지능적으로 발전한다.

5. 결과 시각화 및 모니터링

자동화된 실험이 진행되는 동안 진행 상황을 추적하는 것이 중요하다.

Slack 웹훅 알림

새로운 챌린저 또는 베이스라인 변형이 생성될 때마다 Slack으로 알림이 전송된다. 알림에 포함되는 정보:

베이스라인 제목 및 카피
챌린저 제목 및 카피
챌린저의 가설 (예: “베이스라인이 너무 길고 제안이 묻혀 있으며 구체적인 CTA 시간이 없음”)
수확(Harvest) 결과: 어느 쪽이 더 높은 응답률을 보였는지

베이스라인 vs. 챌린저 예시

베이스라인 (초기 카피)

제목: “Quick question”
내용: 제작자가 직접 작성한 초기 이메일

챌린저 (AI 생성 변형)

가설: “베이스라인은 너무 길고, 제안이 묻혀 있으며, 구체적인 CTA 시간이 없음”
목표: 75단어 이내, 관련성으로 시작, 리스크 역전을 앞에 배치, 구체적인 시간 요청으로 마무리
실제 생성된 예시 (요약):
“안녕하세요 [이름]. 저는 캘거리의 연간 200만 달러 규모 덴탈 마케팅 회사를 위해 PPC 리드를 운영하고 있습니다. 저 혼자 콜드 이메일로 1,000만 달러 이상의 비즈니스를 판매했습니다. 지금 PPC를 원하는 백로그가 있습니다. 비용은 합의한 목표를 달성할 때만 청구합니다. 리스크 제로입니다. 짧은 통화 가치 있을까요?”

resources.md 누적 학습

실험이 반복될수록 resources.md에 “무엇이 응답률을 높이는가”에 대한 지식이 축적된다. 이 문서는 이후 실험에서 AI 모델의 판단 근거로 활용되어, 시간이 지날수록 더 정교한 챌린저를 생성하게 된다.

예상 성과 곡선:

응답률
  ↑
높음 |                    ****
     |              ****
     |         ***
     |    ***
낮음 |***
     +------------------------→ 실험 횟수

6. 자동 최적화의 한계와 주의사항

모든 것이 Auto Research에 적합한 것은 아니다. 다음 세 가지 조건을 반드시 확인해야 한다.

조건 1: 빠른 피드백 루프

Karpathy의 시스템이 효과적인 이유는 5분이라는 짧은 루프 때문이다. 루프가 빠를수록:

시간당 더 많은 실험 가능
수렴(최적값 도달) 속도가 빠름
조기에 방향 수정 가능

반대로, 피드백 루프가 길면(수일~수주) 최적화 속도가 크게 느려진다.

조건 2: 명확하고 객관적인 지표

좋은 지표의 예:

응답률 ✓ (객관적, 자동 추적 가능)
클릭률 ✓ (객관적, 자동 추적 가능)
전환율 ✓ (객관적, 자동 추적 가능)

나쁜 지표의 예:

“따뜻함(Warmth)” ✗ (주관적, 측정 불가)
고객 감정 ✗ (모호함, 프록시 필요)
브랜드 인지도 ✗ (측정 주기가 너무 김)

주관적이고 모호한 지표를 사용하는 경우, 측정 가능한 프록시 지표를 찾아야 한다 (예: 만족도 척도, 별점, NPS 등).

조건 3: API 접근 권한

에이전트가 입력값을 변경하려면 반드시 API 또는 자동화 도구가 필요하다. 대안:

Chrome DevTools MCP (웹 인터페이스 자동화)
CLI 기반 자동화 도구

API 없이 에이전트가 변경 목록을 생성하고 사람이 직접 적용하는 방식은 가능하지만, 자동화의 핵심 가치를 잃게 된다.

요약 체크리스트

항목	확인
피드백 루프가 충분히 빠른가?	☐
지표가 객관적이고 자동 추적 가능한가?	☐
입력값을 변경할 API가 있는가?	☐

7. AI 실험의 민주화

Auto Research가 의미하는 것은 단순한 자동화 그 이상이다.

이것이 이미 일어나고 있다

세계 주요 AI 연구소들은 이미 이와 동일한 방식으로 모델을 개선하고 있다. 수천 개의 실험을 밤새 자동으로 실행하여 모델 성능을 향상시키는 것이 표준 프로세스다.

개인 비즈니스로의 확장

이제 개인 창업자, 마케터, 개발자도 동일한 방법론을 사용할 수 있게 되었다.

기존 방식 vs. Auto Research 방식

구분	기존 방식	Auto Research
실험 기획	사람이 직접	AI 자동 생성
데이터 수집	수동	API 자동 수집
결과 분석	사람이 직접	AI 자동 분석
다음 실험 설계	사람이 직접	AI 자동 설계
실행 주기	하루 1~2회	시간당 최대 12회+
야간 운영	불가	24시간 가능

장기적 복리 효과

500~1,000회 실험 후 누적된 resources.md는 당신의 특정 오디언스, 특정 제품, 특정 채널에 최적화된 전문 지식 베이스가 된다. 이는 어떤 컨설턴트도 단기간에 제공할 수 없는 수준의 인사이트다.

예상 복리 성장:

1개월: 소폭 개선 (베이스라인 대비 +20~30%)
3개월: 유의미한 개선 (베이스라인 대비 +50~100%)
1년: 극적인 개선 (베이스라인 대비 수배~수십 배)

8. 요약 및 핵심 인사이트

핵심 요약

Auto Research는 “AI가 AI를 훈련시킨다”는 아이디어를 비즈니스 최적화에 적용한 강력한 프레임워크다.

원리: 가설 → 실험 → 측정 → 선택 → 반복의 과학적 실험 루프를 완전 자동화
핵심 가치: 인간보다 빠르지 않을 수 있지만, 24시간 쉬지 않고 수백 번의 실험을 실행
적용 가능 분야: 명확한 지표와 API가 있는 모든 최적화 과제
설정 방법: Karpathy의 GitHub 저장소 클론 → Claude Code에서 목적 정의 → GitHub Actions로 스케줄링

시작하기 위한 최소 요구사항

Karpathy Auto Research 저장소 클론
최적화할 지표 정의 (응답률, 전환율 등)
해당 플랫폼의 API 키 획득
Claude API 키 획득
GitHub Actions로 스케줄링 설정

주의사항

초기에는 대부분의 챌린저가 베이스라인을 이기지 못할 수 있다
결과 추적 및 모니터링 시스템(Slack 웹훅 등)을 반드시 설정할 것
실험 횟수가 많아질수록 resources.md가 길어지므로, 주기적인 요약·정리 필요
무한한 실험보다 적절한 규모와 속도의 실험이 더 효율적일 수 있음

이 문서는 YouTube 영상 “Claude Code + Auto Research = Self-Improving AI”의 내용을 바탕으로 작성되었습니다.

AI, Claude Code

AI claude-code Autoresearch AndrejKarpathy LLM agent-orchestrator Claude.write

클로드 코드 + 자동 연구(Auto Research) = 스스로 발전하는 AI

목차

1. Karpathy의 Auto Research란?

Auto Research의 핵심 개념

Auto Research의 실제 성과

2. 비즈니스에서의 실제 적용 사례

2-1. 콜드 이메일 최적화 (핵심 사례)

2-2. 랜딩 페이지 전환율 최적화 (CRO)

2-3. 광고 크리에이티브 최적화

2-4. 고객 서비스 챗봇 스크립트 최적화

2-5. 이커머스 상품 설명 최적화

2-6. 기타 활용 가능 분야

3. Auto Research의 작동 원리

단계별 설명

시간당 실험 가능 횟수 비교

4. Auto Research 시스템 설정 방법

필요 조건 세 가지

설정 단계

오케스트레이터 구조

5. 결과 시각화 및 모니터링

Slack 웹훅 알림

베이스라인 vs. 챌린저 예시

resources.md 누적 학습

6. 자동 최적화의 한계와 주의사항

조건 1: 빠른 피드백 루프

조건 2: 명확하고 객관적인 지표

조건 3: API 접근 권한

요약 체크리스트

7. AI 실험의 민주화

이것이 이미 일어나고 있다

개인 비즈니스로의 확장

장기적 복리 효과

8. 요약 및 핵심 인사이트

핵심 요약

시작하기 위한 최소 요구사항

주의사항

인기 태그