Claude Code Skills × Autoresearch 완전 가이드

게시 2026/03/18

By BLUEBUG

38 분읽는 시간

AI 에이전트가 스스로 프롬프트를 개선하는 자율 최적화 시스템 구축법

작성 기준일: 2026년 3월 18일
원본 영상: YouTube – Claude Code Skills + Autoresearch
참고 레포지토리: github.com/karpathy/autoresearch ⭐ 39,600+

개요 및 핵심 아이디어
Claude Code Skills란 무엇인가
문제 인식: Skills의 신뢰성 한계
해결책: Autoresearch 방법론 도입
Autoresearch 작동 3요소
Eval(평가 기준) 설계 방법
실전 적용: Diagram Generator Skill 최적화
단계별 구현 절차
효과적인 Eval 작성 팁
확장 가능성 및 응용 분야
비용 및 ROI 분석
결론

별첨: Andrej Karpathy의 Autoresearch 심층 해설

1. 개요 및 핵심 아이디어

이 가이드는 Claude Code의 Skills 기능과 Andrej Karpathy가 공개한 Autoresearch 방법론을 결합하여, AI 에이전트가 스스로 프롬프트를 반복적으로 개선하는 자율 최적화 시스템을 구축하는 방법을 설명합니다.

핵심 발상은 단순합니다. 인간이 수동으로 프롬프트를 수정하고, 결과를 확인하고, 다시 수정하는 반복 작업을 AI 에이전트에게 위임하는 것입니다. 에이전트는 정해진 기준(eval)에 따라 스킬을 실행하고, 점수를 측정하고, 더 나은 버전으로 프롬프트를 업데이트하는 과정을 인간의 개입 없이 밤새 자율적으로 수행합니다.

이 접근법의 가장 강력한 점은 방법론 자체의 범용성에 있습니다. 웹사이트 로딩 속도, 이메일 응답률, 마케팅 카피, 코드 최적화 등 수치로 측정 가능한 모든 반복적 개선 작업에 동일하게 적용할 수 있습니다.

2. Claude Code Skills란 무엇인가

Claude Code Skills는 Claude Code 환경 내에서 특정 작업을 수행하는 방법을 담은 마크다운 기반 지시 파일입니다. 쉽게 말해, 에이전트에게 “이런 종류의 요청이 오면 이렇게 처리하라”는 템플릿 역할을 합니다.

예를 들어, 다이어그램 생성 스킬은 다음과 같은 내용을 담고 있습니다.

자연어 설명을 받아 손으로 그린 스케치 스타일의 다이어그램을 생성한다.
출력물은 화이트보드 스케치처럼 보여야 하며, 파스텔 색상의 둥근 직사각형, 단순한 선 아트 아이콘, 얇은 화살표, 깔끔한 레이블로 구성한다.
내부적으로는 Nano Banana Pro 2 모델에 요청을 전달하여 Excalidraw에 붙여넣을 수 있는 형식으로 출력한다.

Skills는 결국 프롬프트입니다. 그리고 프롬프트는 본질적으로 불안정합니다. 동일한 프롬프트를 실행해도 결과가 매번 조금씩 달라지며, 이것이 Skills의 신뢰성 문제로 이어집니다.

3. 문제 인식: Skills의 신뢰성 한계

영상에서 제작자는 솔직하게 인정합니다. Skills를 실행했을 때 원하는 결과가 나오는 비율이 약 70%에 불과하고, 나머지 30%는 기대에 미치지 못한다고요. 이 문제의 근본 원인은 AI 출력이 확률 분포라는 데 있습니다.

같은 프롬프트를 20번 실행하면 결과물들 사이에 일정한 공통점과 차이점이 존재합니다. 완벽히 동일한 출력은 나오지 않습니다. 이런 노이즈(noise)를 통제하고 품질을 지속적으로 개선하려면, 단순히 프롬프트를 수동으로 수정하는 방식으로는 한계가 있습니다.

필요한 것은 두 가지입니다.

첫째, 반복 실행입니다. 한 번의 실행 결과로 판단하지 않고, 여러 번 실행한 결과의 최빈값과 중앙값을 기준으로 품질을 평가해야 합니다.

둘째, 표준화된 평가 기준입니다. “좋아 보인다”는 주관적 느낌이 아니라, 이진(yes/no) 형태의 구체적인 질문으로 품질을 측정해야 합니다.

4. 해결책: Autoresearch 방법론 도입

Autoresearch는 Andrej Karpathy가 공개한 자율 실험 반복 시스템입니다. 원래 목적은 머신러닝 모델 학습 코드를 AI 에이전트가 스스로 개선하도록 하는 것이었지만, 그 구조적 패턴은 어떤 반복적 최적화 문제에도 적용 가능합니다.

원본 레포지토리의 구조를 Skills 최적화에 대입하면 다음과 같이 매핑됩니다.

Autoresearch 원본	Skills 최적화에서의 역할
`train.py` (에이전트가 수정하는 학습 코드)	`SKILL.md` (에이전트가 개선하는 스킬 프롬프트)
`program.md` (에이전트에 대한 인간의 지시)	에이전트에게 전달하는 자연어 지시
val_bpb (검증 지표, 낮을수록 좋음)	Eval 통과율 (높을수록 좋음)
5분 고정 학습 시간	n회 스킬 실행 후 평균 점수

이 방법론을 통해 에이전트는 2분마다 자동으로 스킬을 10회 실행하고, 결과를 사전 정의된 평가 기준으로 채점한 뒤, 점수를 높이는 방향으로 프롬프트를 수정하는 작업을 인간의 개입 없이 반복합니다.

5. Autoresearch 작동 3요소

자율 연구 시스템이 제대로 작동하려면 반드시 세 가지 요소가 필요합니다.

5.1 객관적 측정 지표 (Objective Metric)

감각이나 느낌이 아닌 숫자로 표현되는 성능 지표입니다. 막연하게 “더 좋아 보인다”는 판단은 자동화할 수 없습니다. 반드시 수치화할 수 있어야 합니다.

웹사이트 최적화 예시: 페이지 로딩 시간 (밀리초)
이메일 마케팅 예시: 답장 비율 (%)
Skills 최적화 예시: Eval 통과율 (40점 만점 중 몇 점)

5.2 측정 도구 (Measurement Tool)

지표를 자동으로 측정할 수 있는 도구가 필요합니다. 이상적으로는 사람이 개입하지 않아도 되는 완전 자동화된 도구여야 합니다.

웹사이트 예시: Google Lighthouse 테스트 스위트
이메일 예시: API 기반 분석 도구 (예: Instantly 분석)
Skills 예시: 에이전트가 생성한 테스트 스위트 (평가 항목별 yes/no 판정 스크립트)

5.3 변경 가능한 대상 (Something to Change)

측정 결과에 따라 실제로 수정될 수 있는 대상이 있어야 합니다.

웹사이트 예시: HTML/CSS/JS 코드
이메일 예시: 이메일 카피 텍스트
Skills 예시: SKILL.md 파일의 프롬프트 내용

6. Eval(평가 기준) 설계 방법

Eval은 스킬의 품질을 판단하는 표준화된 테스트 문항입니다. 학교 시험에 비유하자면, 아무리 많은 지식을 가지고 있어도 테스트 없이는 실력을 측정할 수 없는 것과 같은 원리입니다.

6.1 이진 질문(Binary Question) 원칙

가장 효과적인 Eval은 예/아니오로만 답할 수 있는 질문입니다. 리커트 척도(1~7점 등)를 사용하는 방식은 각 단계마다 확률적 변동이 생기기 때문에, 최종 점수의 변동폭이 너무 커집니다. 질문이 쌓일수록 이 변동성은 기하급수적으로 증폭됩니다. 따라서 가능하면 항상 이진 판단을 사용하는 것이 권장됩니다.

6.2 Diagram Generator 스킬의 Eval 예시

영상에서 다이어그램 생성 스킬에 적용한 4가지 평가 기준은 다음과 같습니다.

기준 1: 텍스트 가독성 및 문법 정확성 다이어그램 내의 모든 텍스트가 읽기 쉽고 문법적으로 올바른가? 이 기준을 통과한다면 기본적인 품질이 확보된 것으로 볼 수 있습니다.

기준 2: 색상 팔레트 준수 색상이 파스텔이나 소프트 톤으로 구성되어 있는가? 지나치게 선명한 빨강, 주황, 형광 초록 등 네온 계열 색상이 없는가? 이런 색상은 시각적으로 산만하고 비전문적으로 보이기 때문입니다.

기준 3: 선형적 레이아웃 다이어그램이 왼쪽에서 오른쪽, 또는 위에서 아래로 흐르는 선형 구조를 가지는가? 이전에는 요소들이 사방으로 흩어진 레이아웃이 자주 생성되었는데, 이는 가독성을 떨어뜨립니다.

기준 4: 숫자 및 순서 표시 부재 다이어그램 내에 1, 2, 3, 4 같은 숫자나 서수형 표현이 없는가? 불필요한 번호 매기기는 시각적 복잡성을 높입니다.

이 4가지 기준에 10개의 다이어그램을 테스트하면 최대 40점 만점의 점수가 산출됩니다.

6.3 지나치게 구체적인 Eval의 함정

평가 기준이 너무 세밀하고 기계적이면 모델이 실제 품질과 무관하게 단순히 모든 평가 포인트를 만족하는 척하는 방식으로 최적화될 수 있습니다. 마치 시험의 내용은 이해하지 못해도 정답 패턴만 암기해서 100점을 받는 학생과 같습니다. 평가 기준은 단순하고 명확해야 하며, 실제 품질을 반영할 수 있어야 합니다.

7. 실전 적용: Diagram Generator Skill 최적화

영상에서는 자연어 설명을 Excalidraw 호환 다이어그램으로 변환하는 스킬을 대상으로 자동 최적화를 진행합니다.

7.1 시작 전 상태

초기 스킬 프롬프트는 이미 어느 정도 잘 작동하고 있었습니다. 40점 만점에서 첫 번째 실행 결과가 32점이었는데, 이는 80%의 통과율을 의미합니다. 그러나 목표는 40점 만점, 즉 100% 통과율에 가까운 수준으로 끌어올리는 것이었습니다.

7.2 자동화 실행 과정

에이전트는 2분 간격으로 다음 과정을 자율적으로 반복했습니다.

무작위로 선택한 주제로 다이어그램 10개를 생성합니다.
4가지 Eval 기준으로 각 다이어그램을 평가합니다 (Claude Sonnet 비전 기능 활용).
40점 만점 기준으로 총점을 계산합니다.
이전 실행 결과와 비교하여 점수가 향상되었다면 변경된 프롬프트를 유지하고, 그렇지 않으면 되돌립니다.
다음 실행을 위해 프롬프트를 추가로 개선합니다.

7.3 최종 결과

자동 최적화를 통해 40점 만점 중 39점(97.5%) 에 도달했습니다. 실제 결과물을 보면 손으로 그린 것 같은 파스텔 스타일, 선형 레이아웃, 깔끔한 아이콘이 일관되게 유지되었습니다.

8. 단계별 구현 절차

Step 1. 환경 준비

Claude Code를 실행할 수 있는 환경을 설정합니다. 영상에서는 Anti-Gravity 창에 Claude Code 익스텐션을 설치하여 사용합니다. 본인이 선호하는 어떤 방식이든 상관없습니다.

Step 2. Autoresearch 레포지토리 학습

Karpathy의 레포지토리 링크(https://github.com/karpathy/autoresearch)를 에이전트에게 전달하고 내용을 읽게 합니다. 에이전트는 이 문서를 통해 자율 최적화 루프의 패턴을 이해합니다.

Step 3. Eval 기준 정의

개선하고자 하는 스킬에 맞는 3~5개의 이진(yes/no) 평가 질문을 작성합니다. 이 질문들은 해당 스킬의 출력이 “좋다”고 판단될 수 있는 핵심 조건을 반영해야 합니다.

Step 4. 에이전트에게 지시 전달

자연어로 다음과 같이 지시합니다. (Whisper Flow 같은 음성 전사 도구를 활용하면 편리합니다.)

“위 레포지토리의 Autoresearch 방식을 사용하여 내 [스킬 이름] 스킬을 위한 자기 개선 시스템을 구축해 주세요. Eval 기준은 위에서 제시한 조건들입니다. 2분마다 10개의 결과물을 생성하고, 4가지 Eval로 평가하여 40점 만점 기준으로 채점한 뒤, 프롬프트를 개선하여 10점 만점에 가까워지도록 반복해 주세요.”

Step 5. 실시간 대시보드 모니터링

에이전트는 실시간 대시보드를 자동으로 생성하여 각 실험의 점수 변화를 시각적으로 표시합니다. 이를 통해 스킬이 점진적으로 개선되는 과정을 확인할 수 있습니다.

Step 6. 최적화된 스킬 저장

목표 점수에 도달하면 에이전트가 발견한 최적 프롬프트 버전을 저장하고, 이후 개선 기록(변경 이력)도 함께 보관합니다.

9. 효과적인 Eval 작성 팁

팁 1: 이진 판단을 고수하세요.
“이 다이어그램은 색상 면에서 몇 점인가요?”가 아니라 “이 다이어그램은 파스텔 색상만 사용하고 있나요?”처럼 예/아니오로만 답할 수 있게 질문을 설계하세요.

팁 2: 지나치게 세부적인 조건은 피하세요.
“단어 수가 X개 미만인가?” 또는 “이 특정 기호가 포함되지 않았는가?” 처럼 지나치게 기계적인 조건을 많이 넣으면 모델이 실제 품질과 무관하게 조건만 맞추는 방식으로 최적화됩니다.

팁 3: 진짜 중요한 것에 집중하세요.
Eval 기준은 해당 스킬의 출력이 실용적으로 쓸모 있는지를 반영해야 합니다. 미적인 취향이나 부차적인 조건보다는 핵심 품질 기준 3~5개에 집중하는 것이 좋습니다.

팁 4: 오래 실행할수록 좋아집니다.
처음 시작 점수가 40점 만점에 2점이어도 괜찮습니다. 몇 시간, 며칠, 몇 주를 실행하면 지속적으로 개선됩니다. 중요한 것은 올바른 Eval 기준을 설정하는 것입니다.

팁 5: 실험 기록을 보존하세요.
에이전트가 시도한 모든 변경 사항과 그 결과는 미래에 귀중한 자산이 됩니다. GPT-6나 더 강력한 미래 모델에게 이 이력을 전달하면, 이전 에이전트가 멈춘 지점부터 더 빠르게 개선을 이어갈 수 있습니다.

10. 확장 가능성 및 응용 분야

Autoresearch 패턴은 Skills에 국한되지 않습니다. 다음과 같은 다양한 분야에 동일하게 적용할 수 있습니다.

AI 에이전트 개선: 제안서 생성기, 자동 리뷰 에이전트, 모델 챗 인터페이스 등 보유한 모든 스킬을 순차적으로 자동 최적화하는 메타 스킬을 만들 수도 있습니다.

웹사이트 성능 최적화: 코드를 변경하고, Google Lighthouse로 측정하고, 더 빠른 버전을 유지하는 루프를 구성합니다. 실제로 영상 제작자는 이 방식으로 페이지 로딩 시간을 1,100ms에서 67ms로 줄이는 데 성공했습니다. 약 81.3%의 성능 향상입니다.

마케팅 카피 최적화: 이메일 제목, CTA 문구, 랜딩 페이지 카피를 자동으로 A/B 테스트하여 응답률이 높은 버전을 찾아냅니다. 실제로 마케터 Eric Siu는 Autoresearch 방식을 적용하면 연간 30개 수준이던 마케팅 실험 횟수를 36,500회 이상으로 늘릴 수 있다고 언급했습니다.

썸네일 및 타이틀 분할 테스트: 콘텐츠 크리에이터라면 클릭률(CTR)을 지표로 삼아 제목이나 이미지를 자동으로 개선할 수 있습니다.

11. 비용 및 ROI 분석

영상에서 사용된 Diagram Generator 스킬의 경우, 다이어그램 1개 생성 비용은 약 2센트(약 30원)입니다. 10개 생성 시 약 20센트(약 280원)가 소요됩니다.

50회 실험 기준 총 비용은 약 10달러(약 14,000원) 수준입니다. 이 정도 비용으로 스킬의 정확도를 80%에서 97.5% 수준으로 끌어올릴 수 있다면, 이후 수십 번, 수백 번 스킬을 사용할 때마다 절약되는 시간과 수정 작업을 고려하면 매우 높은 투자 대비 수익률(ROI)을 기대할 수 있습니다.

12. 결론

Claude Code Skills와 Autoresearch의 결합은 AI 도구 활용의 패러다임을 한 단계 높입니다. 인간이 직접 프롬프트를 수정하는 수동적 방식에서 벗어나, 에이전트 스스로 기준에 맞춰 개선을 반복하는 자율 최적화 루프를 구성하는 것입니다.

가장 중요한 점은 인프라나 코딩 실력이 아니라 올바른 Eval 기준을 설계하는 것이 이 방법론의 핵심이라는 사실입니다. 무엇을 측정할지, 무엇이 좋은 결과인지를 명확히 정의하면, 나머지는 에이전트가 자율적으로 처리할 수 있습니다.

이 방법론은 지금도 발전 중입니다. Karpathy 본인도 이 시스템이 여러 에이전트가 비동기적으로 협업하는 방향으로 진화해야 한다고 언급했으며, 다양한 도메인에서의 적용 사례가 빠르게 늘어나고 있습니다.

별첨: Andrej Karpathy의 Autoresearch 심층 해설

A1. Autoresearch란?

Autoresearch는 OpenAI 공동 창업자이자 Tesla AI 전 총괄 Andrej Karpathy가 2026년 3월에 공개한 오픈소스 자율 실험 프레임워크입니다. 공개 이후 5일 만에 GitHub 스타 25,000개를 돌파했으며, 현재(2026년 3월 기준) 약 39,600개의 스타를 기록하며 AI 커뮤니티에서 뜨거운 주목을 받고 있습니다.

한 줄로 요약하면 다음과 같습니다.

“AI 에이전트에게 작지만 실제 LLM 학습 환경을 주고, 밤새 스스로 실험하도록 내버려 두는 것.”

에이전트는 학습 코드를 수정하고, 5분짜리 학습을 실행하고, 성능이 개선되었는지 확인하고, 결과를 유지하거나 되돌리고, 다시 반복합니다. 인간이 잠든 사이 하룻밤에 약 100개의 실험을 자율적으로 수행할 수 있습니다.

A2. 탄생 배경

Karpathy는 소형 트랜스포머 언어 모델을 사전 학습할 때 반복적으로 수행하던 작업에서 영감을 얻었습니다. 학습 스크립트의 하이퍼파라미터나 아키텍처를 수정하고, 일정 시간 학습을 돌리고, 검증 손실(validation loss)을 확인하고, 변경 사항이 유효한지 판단한 뒤 다시 수정하는 수동 루프가 그것입니다. Autoresearch는 이 루프 전체를 AI 에이전트에게 위임합니다.

그의 GitHub README에는 다음과 같은 유명한 문장이 담겨 있습니다.

“한때 AI 연구는 밥 먹고, 자고, 그룹 미팅이라는 소리 신호 의식으로 동기화하던 ‘고기 컴퓨터’들의 영역이었다. 그 시대는 이미 지났다.”

A3. 핵심 구조: 3개의 파일

레포지토리는 의도적으로 단순하게 유지됩니다. 핵심 파일은 단 세 가지입니다.

prepare.py (고정 파일 — 수정 불가)

데이터 전처리와 런타임 유틸리티를 담당합니다. 학습 데이터 다운로드, BPE 토크나이저 학습(기본 어휘 크기 8,192), 데이터로더, 평가 함수 등이 포함됩니다. 에이전트는 이 파일을 절대 수정하지 않습니다. 에이전트의 탐색 범위를 제한하여 실험의 일관성을 유지하기 위한 설계입니다.

train.py (에이전트가 수정하는 파일)

약 630줄 분량의 단일 파일로, GPT 형태의 언어 모델 전체 아키텍처, 최적화 알고리즘(Muon + AdamW), 학습 루프가 모두 담겨 있습니다. 에이전트는 이 파일의 모든 부분을 수정할 수 있습니다. 모델 깊이, 헤드 수, 학습률, 배치 크기, 활성화 함수 등 어떤 부분이든 변경 대상이 됩니다.

program.md (인간이 작성하는 지시 파일)

에이전트에게 전달하는 고수준 지시 사항을 담은 마크다운 파일입니다. 무엇을 탐색해야 하는지(지시), 변경해서는 안 되는 것은 무엇인지(제약 조건), 언제 종료할 것인지(종료 기준)를 동시에 담고 있습니다. Karpathy 본인이 “가장 과소평가된 파일”이라고 부를 만큼, 이 파일의 작성 품질이 전체 시스템의 성과를 좌우합니다.

A4. 5분 고정 시간 예산의 설계 원리

모든 학습 실험은 하드웨어 사양과 무관하게 정확히 5분간 실행됩니다. 언뜻 제약처럼 보이지만, 이 설계 결정은 시스템의 핵심 강점을 만들어 냅니다.

비교 가능성: 모델 크기, 배치 크기, 아키텍처가 변경되어도 모든 실험은 동일한 5분 안에서 비교됩니다.

하드웨어 자동 최적화: 더 효율적이고 작은 모델이 5분 안에 더 많은 스텝을 수행할 수 있다면, Autoresearch가 이를 자연스럽게 발견합니다.

예측 가능한 반복 속도: 시간당 약 12회 실험, 하룻밤 수면 동안 약 100회 실험이라는 구체적인 예산을 계획할 수 있습니다.

단, 이 설계의 단점은 다른 사람의 결과와 직접 비교할 수 없다는 점입니다. 동일한 코드도 다른 GPU에서 실행하면 다른 결과를 냅니다. 그러나 Karpathy의 철학은 보편적 벤치마크보다 내 하드웨어에서 내 시간 예산 안에서 최선의 모델을 찾는 데 있습니다.

A5. 성능 지표: val_bpb

Autoresearch가 최적화하는 지표는 val_bpb(검증 비트/바이트) 입니다. 이 지표를 선택한 이유는 어휘 크기와 무관하게 비교할 수 있기 때문입니다. 에이전트가 토크나이저를 변경하거나 아키텍처를 바꾸어도 항상 공정한 비교가 가능합니다.

A6. 실제 성과

Karpathy가 ‘depth=12’ 모델을 이틀간 실행한 결과, 에이전트는 약 700번의 자율 변경을 수행했습니다. 그 중 약 20개의 누적 개선 사항이 더 큰 모델에도 그대로 적용될 수 있음이 확인되었습니다. 이 변경 사항들을 쌓아 올린 결과, 리더보드의 ‘GPT-2 도달 시간’ 지표가 2.02시간에서 1.80시간으로 약 11% 향상되었습니다. Karpathy는 20년 넘게 직접 수동으로 놓쳤던 어텐션 스케일링과 정규화 관련 개선점을 에이전트가 발견했다고 밝혔습니다.

A7. ML을 넘어선 확장: 범용 최적화 패턴

Autoresearch의 진정한 가치는 ML 학습 스크립트를 개선하는 것이 아니라, 다음과 같은 보편적 패턴에 있습니다.

변경 가능한 자산 → 자동 수정 → 지표 측정 → 개선된 버전 유지 → 반복

이 패턴은 측정 가능한 목표가 있는 어떤 반복적 작업에도 적용됩니다. 실제로 마케터, 개발자, 콘텐츠 크리에이터 등 다양한 분야에서 이 패턴을 자신의 도메인에 맞게 재해석하고 있습니다.

A8. Karpathy의 미래 비전

Karpathy는 Autoresearch의 다음 단계는 비동기 대규모 협업이어야 한다고 밝혔습니다. 단일 에이전트가 순차적으로 실험하는 현재 구조에서 나아가, SETI@home처럼 수많은 에이전트가 서로 다른 연구 방향을 동시에 탐색하는 분산 연구 커뮤니티 모델이 목표입니다. 단일 박사 과정 학생을 에뮬레이션하는 것이 아니라, 연구 커뮤니티 전체를 에뮬레이션하는 것입니다.

A9. 핵심 교훈 요약

Autoresearch가 던지는 가장 중요한 메시지는 이것입니다. “수동 실험과 에이전트 자동 실험 사이의 간극은 대부분의 팀이 생각하는 것보다 훨씬 작다.” 필요한 투자는 복잡한 인프라나 고급 코딩 기술이 아니라 좋은 문서 작성 능력입니다. 무엇을 탐색하고, 무엇을 제한하고, 언제 멈출지를 명확히 담은 program.md 하나가 전체 시스템의 성과를 결정합니다.

이 문서는 2026년 3월 기준 최신 정보를 바탕으로 작성되었습니다. Autoresearch GitHub: https://github.com/karpathy/autoresearch

AI, Agent Skills

AI claude-code Autoresearch claude-skills AndrejKarpathy Claude.write

목차

별첨: Andrej Karpathy의 Autoresearch 심층 해설

1. 개요 및 핵심 아이디어

2. Claude Code Skills란 무엇인가

3. 문제 인식: Skills의 신뢰성 한계

4. 해결책: Autoresearch 방법론 도입

5. Autoresearch 작동 3요소

5.1 객관적 측정 지표 (Objective Metric)

5.2 측정 도구 (Measurement Tool)

5.3 변경 가능한 대상 (Something to Change)

6. Eval(평가 기준) 설계 방법

6.1 이진 질문(Binary Question) 원칙

6.2 Diagram Generator 스킬의 Eval 예시

6.3 지나치게 구체적인 Eval의 함정

7. 실전 적용: Diagram Generator Skill 최적화

7.1 시작 전 상태

7.2 자동화 실행 과정

7.3 최종 결과

8. 단계별 구현 절차

Step 1. 환경 준비

Step 2. Autoresearch 레포지토리 학습

Step 3. Eval 기준 정의

Step 4. 에이전트에게 지시 전달

Step 5. 실시간 대시보드 모니터링

Step 6. 최적화된 스킬 저장

9. 효과적인 Eval 작성 팁

10. 확장 가능성 및 응용 분야

11. 비용 및 ROI 분석

12. 결론

별첨: Andrej Karpathy의 Autoresearch 심층 해설

A1. Autoresearch란?

A2. 탄생 배경

A3. 핵심 구조: 3개의 파일

prepare.py (고정 파일 — 수정 불가)

train.py (에이전트가 수정하는 파일)

program.md (인간이 작성하는 지시 파일)

A4. 5분 고정 시간 예산의 설계 원리

A5. 성능 지표: val_bpb

A6. 실제 성과

A7. ML을 넘어선 확장: 범용 최적화 패턴

A8. Karpathy의 미래 비전

A9. 핵심 교훈 요약

인기 태그