포스트

실제로 작동하는 AI 에이전트 구축하기

실제로 작동하는 AI 에이전트 구축하기

본 문서는 Remy Gaskell과 Greg Isenberg의 팟캐스트 에피소드 “The Startup Ideas Podcast – AI 에이전트로 기업 부서 전체 운영하기”와 최신 자료(2026년 3월 기준)를 바탕으로 작성된 실전형 가이드입니다.


목차

  1. AI 에이전트란 무엇인가: 채팅 모델과의 근본적 차이
  2. 에이전트 루프: 관찰 → 사고 → 실행 + 세 플랫폼 결과 비교
  3. 에이전트 하네스: 플랫폼은 달라도 엔진은 같다
  4. 컨텍스트 파일: 실제 직원처럼 에이전트 온보딩하기
  5. 메모리 시스템: 채팅 메모리 vs 에이전트 메모리 + 구축 가이드
  6. MCP (Model Context Protocol): 도구 연결의 표준
  7. 스킬(Skills): AI를 위한 표준 운영 절차(SOP)
  8. 스킬 체이닝과 자동화 워크플로우 + 실제 사례: 자동 차량 검색
  9. 글로벌 레벨 vs 프로젝트 레벨
  10. 보안과 권한 설계 + 음성-텍스트 변환 도구 상세 안내
  11. 초보자를 위한 단계별 실행 플랜
  12. 별첨: 주요 플랫폼 및 프레임워크 상세 설명

1. AI 에이전트란 무엇인가: 채팅 모델과의 근본적 차이

채팅 모델은 “탁구”, 에이전트는 “목표 달성 기계”

우리가 지금까지 사용해 온 AI는 대부분 채팅 모델이었습니다. ChatGPT나 Claude에게 질문을 던지면 답변이 돌아오고, 다시 질문하면 또 답변이 돌아오는 방식입니다. Remy는 이를 탁구에 비유합니다. 공이 왔다 갔다 하지만, 실제로 무언가를 완성하는 것은 항상 인간의 몫이었습니다.

에이전트는 근본적으로 다릅니다. 에이전트는 질문 → 답변 구조가 아니라 목표 → 결과 구조로 작동합니다. 당신이 “이번 주 마케팅 보고서 작성해줘”라고 말하면, 에이전트는 그 목표를 달성하기 위해 스스로 계획을 세우고, 필요한 도구를 사용하고, 중간 결과물을 점검하면서 최종 결과물을 당신에게 전달합니다. 인간이 중간에 개입할 필요가 없습니다.

이 차이는 단순한 기능의 차이가 아닙니다. 생산성의 패러다임 전환입니다. 에이전트를 잘 활용하는 창업자와 직원은 그렇지 않은 사람들보다 10~20배의 생산성을 발휘한다고 알려져 있으며, 이 격차는 시간이 지날수록 기하급수적으로 벌어집니다.

AI 에이전트를 구성하는 네 가지 핵심 요소

에이전트는 기술적으로 네 가지 요소의 결합으로 이루어집니다.

첫째, LLM(대형 언어 모델) 이 에이전트의 두뇌 역할을 합니다. Claude Opus 4.6, GPT-5, Gemini Ultra 같은 최신 모델들이 여기에 해당합니다. 모델의 성능이 곧 에이전트의 판단력과 창의성을 결정합니다.

둘째, 루프(Loop) 구조가 에이전트를 채팅 모델과 구분하는 핵심입니다. 채팅 모델은 한 번 응답하고 멈추지만, 에이전트는 작업이 완료될 때까지 계속해서 루프를 반복합니다. 인간이 옆에서 지켜볼 필요 없이 스스로 진행합니다.

셋째, 도구(Tools) 가 연결되어야 합니다. Gmail, Google Calendar, Notion, Stripe, Slack 같은 실제 업무 도구들이 에이전트에 연결될 때 비로소 실질적인 생산성 향상이 일어납니다.

넷째, 컨텍스트(Context) 가 제공되어야 합니다. 에이전트가 당신이 누구인지, 어떤 일을 하는지, 어떤 선호도를 가지고 있는지 알아야 제대로 된 결과를 낼 수 있습니다.

이 네 가지 요소를 하나의 플랫폼에서 연결해 주는 것을 에이전트 하네스(Agent Harness) 라고 부릅니다.


2. 에이전트 루프: 관찰 → 사고 → 실행

루프의 세 단계를 이해하면 모든 플랫폼이 보인다

에이전트 루프는 모든 에이전트 플랫폼이 공유하는 핵심 작동 원리입니다. 이 루프를 이해하면 Claude Code, Codex, Cowork, Manus, OpenClaw 중 어떤 플랫폼을 사용하든 동일한 원리로 접근할 수 있습니다.

1단계: 관찰(Observe) 에이전트는 먼저 주어진 상황을 파악합니다. 작업 공간(폴더)에 어떤 파일이 있는지, 어떤 도구를 사용할 수 있는지, 사용자가 준 프롬프트는 무엇인지를 모두 수집합니다. 이 단계에서 agents.md 같은 컨텍스트 파일이 로드되어 에이전트에게 필요한 배경 정보가 제공됩니다.

2단계: 사고(Think) 수집된 정보를 바탕으로 다음에 무엇을 해야 할지 계획합니다. “Greg Eisenberg를 위한 포트폴리오 사이트를 만들어 달라”는 요청을 받은 에이전트는 먼저 “Greg Eisenberg가 누구인지 조사해야겠다”는 판단을 내립니다. 이 사고 과정이 에이전트를 단순한 도구가 아닌 자율적 존재로 만들어 줍니다.

3단계: 실행(Act) 판단에 따라 실제 행동을 취합니다. 웹 검색을 하거나, 코드를 작성하거나, 이메일을 보내거나, 데이터베이스를 조회합니다. 실행 결과는 다시 관찰 단계로 피드백되어 다음 사이클이 시작됩니다.

이 세 단계 루프는 작업이 완료될 때까지 계속 반복됩니다. 작업 완료 시점은 사용자가 프롬프트에서 설정한 조건에 따라 결정됩니다. 예를 들어 “10개의 출처를 정리해서 파워포인트로 만들어 줘”라는 요청이라면, 10개 출처 수집과 파워포인트 생성이 완료되는 시점에 에이전트가 루프를 멈추고 결과물을 반환합니다.

실제 데모로 본 루프의 작동

Remy는 동일한 프롬프트(“Greg Eisenberg를 위한 미니멀리스트 포트폴리오 사이트 만들기”)를 Claude Code, Codex, Antigravity 세 플랫폼에 동시에 실행했습니다. 각 플랫폼은 사전에 준비된 별도의 데모 폴더(demo-1, demo-2, demo-3)를 작업 공간으로 사용했으며, 세 플랫폼 모두 동일한 관찰-사고-실행 루프를 거쳤습니다.

세 가지 플랫폼 결과 비교

Antigravity는 세 플랫폼 중 가장 빠르게 결과물을 내놓았습니다. 현재 디렉토리를 확인하고(“기존 프로젝트가 있는지, 아니면 처음부터 시작해야 하는지 파악 중”), 곧장 코드를 작성해 로컬호스트 미리보기를 생성했습니다. 결과물은 깔끔하고 미니멀한 포트폴리오 사이트였습니다. 단, 인물 정보(이메일, 거주지 등) 일부가 실제와 달랐습니다. 속도는 빠르지만 정보 정확도는 상대적으로 낮았습니다.

Codex(Gemini 기반)는 비슷한 접근 방식으로 웹사이트를 완성했습니다. 결과물의 디자인 완성도는 세 플랫폼 중 가장 높다는 평가를 받았습니다. Remy와 Greg 모두 “Gemini 것이 가장 보기 좋다”고 인정했을 정도로 시각적 완성도에서 두각을 나타냈습니다. 하지만 루프의 사고 과정이 상대적으로 덜 드러나 학습 목적으로는 아쉬운 면이 있습니다.

Claude Code는 처리 속도는 가장 느렸지만, 루프의 각 단계를 가장 상세하게 시각화했습니다. 다음과 같은 단계별 사고 과정이 실시간으로 화면에 표시됐습니다.

  1. “Greg Eisenberg가 누구인지 조사해야겠다” → Perplexity MCP를 통해 웹 검색 실행
  2. 조사 결과(Greg의 배경, 프로젝트, SNS 등)를 컨텍스트에 로드
  3. “이제 HTML 파일을 작성해야겠다” → 코드 작성
  4. “로컬 서버에서 구동하라는 지시가 있었다” → 서버 실행
  5. “작업이 완료됐는지 확인해야겠다” → Playwright 등 브라우저 자동화 도구를 호출해 페이지를 캡처하고 품질 검토

이 마지막 단계, 즉 에이전트가 스스로 스크린샷을 찍어 결과물을 직접 확인한다는 점이 특히 인상적이었습니다. 에이전트는 단순히 코드를 생성하는 것에서 그치지 않고, 완성 조건이 충족됐는지를 스스로 검증합니다. (정확히는 Claude Code가 직접 화면을 캡처하는 것이 아니라, 에이전트 루프 안에서 Playwright나 Puppeteer 같은 브라우저 자동화 라이브러리를 코드로 실행해 로컬 서버 페이지의 이미지를 얻는 방식입니다)

세 플랫폼 비교 요약:

항목AntigravityCodex (Gemini)Claude Code
처리 속도⭐⭐⭐ 빠름⭐⭐ 중간⭐ 느림
디자인 품질⭐⭐ 보통⭐⭐⭐ 우수⭐⭐ 보통
루프 시각화⭐ 낮음⭐⭐ 중간⭐⭐⭐ 투명함
정보 정확도⭐⭐ 보통⭐⭐ 보통⭐⭐⭐ 높음
학습 목적 적합성⭐⭐ 보통⭐⭐ 보통⭐⭐⭐ 우수

결론적으로, 세 플랫폼의 결과물은 서로 달랐지만 내부에서 작동하는 루프의 원리는 동일했습니다. 플랫폼 간의 차이는 핵심 엔진이 아닌 외관, 속도, 그리고 투명성의 차이입니다. 어떤 플랫폼이 “더 낫다”기보다는 사용 목적에 따라 적합한 플랫폼이 다릅니다. 처음 학습하는 사람에게는 루프가 가장 잘 보이는 Claude Code가, 빠른 실무 결과가 필요할 때는 Antigravity나 Codex가 유용합니다.


3. 에이전트 하네스: 플랫폼은 달라도 엔진은 같다

자동차 비유: 운전법만 알면 어떤 차든 탈 수 있다

Remy는 에이전트 하네스를 자동차에 비유합니다. 운전을 배울 때 핸들 조작, 브레이크, 액셀레이터의 원리를 배우면 이후에는 어떤 자동차든 탈 수 있습니다. 일부 고급차에는 열선 시트나 크루즈 컨트롤 같은 부가 기능이 있지만, 운전의 핵심 원리는 같습니다. 에이전트 하네스도 마찬가지입니다.

주요 에이전트 하네스 플랫폼 비교:

플랫폼특징난이도적합한 사용자
Claude Code루프 시각화가 뛰어남, Claude 모델 최적화중급개발자, 파워유저
CoworkUI가 직관적, 초보자 친화적초급비개발자, 입문자
CodexOpenAI 기반, Gemini 모델 활용중급GPT 생태계 선호자
Antigravity빠른 처리 속도중급속도 중시 사용자
Manus자율성 높음, 일부 자동 메모리 내장중급자동화 선호
OpenClaw가장 높은 자율성, 설정 복잡고급고급 자동화 구현자

초보자에게는 Cowork 또는 Perplexity Computer로 시작하는 것을 권장합니다. 시각적인 UI가 에이전트의 작동 방식을 이해하는 데 도움이 됩니다. 어느 정도 익숙해지면 Claude Code로 넘어가고, 더 높은 자율성이 필요할 때 OpenClaw를 도입하는 것이 좋은 경로입니다.

로컬 파일 기반 아키텍처의 중요성

모든 에이전트 하네스는 로컬 파일 시스템을 기반으로 작동합니다. 이는 매우 중요한 특징입니다. 에이전트는 당신의 컴퓨터 안에 있는 폴더를 워크스페이스로 삼아 작업하며, 마크다운(.md) 파일들을 통해 컨텍스트, 메모리, 스킬 정보를 받아들입니다.

마크다운을 사용하는 이유는 LLM이 PDF나 Word 문서보다 마크다운을 훨씬 효율적으로 이해하고 처리하기 때문입니다. 마크다운은 구조가 명확하고, 불필요한 서식 정보가 없어 토큰을 낭비하지 않습니다.

Remy는 자신의 워크스페이스를 다음과 같이 구성합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
workspaces/
├── company-a/
│   ├── executive-assistant/
│   │   ├── claude.md (또는 agents.md)
│   │   ├── memory.md
│   │   └── skills/
│   ├── head-of-marketing/
│   │   ├── claude.md
│   │   ├── memory.md
│   │   └── skills/
│   └── head-of-sales/
│       ├── claude.md
│       └── memory.md
└── company-b/
    └── ...

각 폴더가 하나의 AI 직원 역할을 합니다. 이 구조가 유지되는 한, 어떤 에이전트 하네스 플랫폼으로 이동하더라도 동일한 파일을 그대로 사용할 수 있습니다. 이것이 바로 미래 지향적인 AI 스택의 핵심입니다.


4. 컨텍스트 파일 (agents.md / claude.md): 에이전트 온보딩

신입 직원처럼 에이전트를 온보딩하라

실제 회사에서 신입 직원을 채용했을 때 아무런 설명 없이 바로 일을 시키면 어떻게 될까요? 당신이 무슨 일을 하는지, 어떤 제품을 파는지, 어떤 고객을 상대하는지 모르는 직원은 제대로 된 성과를 낼 수 없습니다. 에이전트도 마찬가지입니다.

Remy가 빈 폴더에서 “cold email을 써줘”라고 요청했을 때 에이전트가 즉시 되물은 내용은 시사적입니다. “어떤 브랜드나 스폰서를 위한 건가요, 아니면 컨설팅 클라이언트인가요? 미팅 예약인가요, 아니면 제품 소개인가요?” 에이전트는 당신이 누구인지, 무엇을 파는지, 누구에게 어떤 목적으로 이메일을 보내는지를 전혀 모릅니다. 모든 것을 매번 설명하는 것은 에이전트를 쓰는 이유를 스스로 없애는 것입니다.

온보딩의 목표는 에이전트가 처음부터 당신을 아는 상태로 작업을 시작하게 만드는 것입니다. 이를 위한 핵심 도구가 컨텍스트 파일(agents.md 또는 claude.md)입니다.

온보딩 파일을 AI의 도움으로 작성하기

처음 agents.md를 만들 때 가장 쉬운 방법은 에이전트 스스로에게 만들어 달라고 요청하는 것입니다. Claude나 ChatGPT 같은 일반 채팅 모델에 접속해 다음과 같이 요청합니다.

“나의 실행 에이전트를 위한 agents.md 파일을 만들어야 해. 인터뷰 형식으로 나에게 질문을 하나씩 던져서 필요한 정보를 수집하고, 마지막에 완성된 마크다운 파일을 만들어 줘.”

그러면 에이전트가 다음과 같은 질문들을 순서대로 물어봅니다.

  • 당신의 이름과 직함은 무엇인가요?
  • 어떤 회사에서 일하나요? 주요 서비스나 제품은?
  • 주요 고객은 어떤 유형인가요?
  • 이메일 커뮤니케이션에서 선호하는 톤은?
  • 자주 사용하는 업무 도구는?
  • 에이전트가 절대 하지 말아야 할 것은?

이 인터뷰를 통해 당신의 상황에 맞게 맞춤화된 agents.md 파일이 만들어집니다. 코딩이나 마크다운 지식 없이도 완성할 수 있습니다.

다중 컨텍스트 폴더로 확장하기

비즈니스가 복잡해지면 단일 agents.md 파일 하나에 모든 정보를 담기 어려워집니다. 이럴 때는 context/ 폴더를 만들고 주제별로 파일을 분리합니다.

1
2
3
4
5
6
7
8
executive-assistant/
├── claude.md          ← 메인 파일 (모든 것을 연결하는 허브)
├── memory.md          ← 누적 메모리
└── context/
    ├── about-me.md    ← 나에 대한 기본 정보
    ├── brand-voice.md ← 브랜드 톤앤보이스
    ├── clients.md     ← 주요 클라이언트 정보
    └── tools.md       ← 사용 도구 목록 및 용도

이때 claude.md 파일에는 다음과 같이 명시적으로 지시합니다.

1
2
3
4
5
## 시작 지침
어떤 작업이든 시작하기 전에 반드시 다음을 수행하세요:
1. `memory.md`를 읽어 이전 세션에서 학습한 내용을 파악하세요.
2. `context/` 폴더 안의 모든 파일을 읽어 나와 나의 비즈니스에 대해 파악하세요.
3. 위 정보를 바탕으로 작업을 시작하세요.

이렇게 하면 에이전트는 매 세션마다 모든 배경 정보를 자동으로 로드하고, 마치 당신을 오래 알아온 비서처럼 행동합니다. Obsidian 같은 두 번째 뇌(Second Brain) 도구를 쓰는 사람이라면 Obsidian Vault 전체를 참조하도록 claude.md에 지시할 수도 있습니다.

agents.md (또는 claude.md) 파일이란

컨텍스트 파일은 에이전트가 새 세션을 시작할 때마다 가장 먼저 로드하는 문서입니다. 마치 신입 직원에게 주는 온보딩 패키지와 같습니다. 이 파일에는 다음과 같은 정보를 담습니다.

파일 이름 규칙:

  • Claude Code: claude.md (또는 CLAUDE.md)
  • Codex / OpenClaw: agents.md (또는 AGENTS.md)
  • Gemini 기반: gemini.md

이름만 다를 뿐 개념은 동일합니다.

agents.md에 담을 내용:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
# 나의 실행 에이전트 설정

## 역할
당신은 나의 수석 비서입니다. 나의 일정, 이메일, 프로젝트 관리를 담당합니다.

## 나에 대하여
- 이름: [이름]
- 회사: [회사명] – AI 기반 마케팅 자동화 솔루션 제공
- 주요 고객: B2B SaaS 스타트업, 이커머스 브랜드

## 비즈니스 정보
- 주력 서비스: 광고 분석 자동화, 이메일 캠페인 최적화
- 가격대: 월 $2,000 ~ $10,000 (기업 규모에 따라)
- 주요 경쟁자: [경쟁사명]

## 커뮤니케이션 선호도
- 이메일 톤: 전문적이되 친근하게, 과도한 격식 배제
- 서명: "[이름] | [회사명] | [연락처]"
- 절대 사용하지 말 것: "Cheers", 과도한 이모지

## 사용 도구
- 프로젝트 관리: Notion
- 결제: Stripe
- 미팅 노트: Granola
- 이메일/캘린더: Gmail, Google Calendar
- 회계: QuickBooks

## 추가 지침
컨텍스트 폴더(`./context/`)를 항상 먼저 읽고 작업을 시작하세요.
memory.md 파일을 읽어 이전 세션에서 배운 내용을 파악하세요.

이 파일 하나로 에이전트는 “cold email 써줘”라는 두 단어짜리 프롬프트만으로도 당신의 회사에 맞는, 당신의 목소리로, 적절한 고객 세그먼트를 타겟으로 한 이메일을 즉시 작성할 수 있게 됩니다.

컨텍스트 엔지니어링: 프롬프트 엔지니어링의 다음 단계

과거에는 “이 프롬프트를 사용하면 소셜 미디어에서 바이럴된다”는 식의 프롬프트 엔지니어링이 유행했습니다. 에이전트 시대에는 패러다임이 바뀝니다. 이제 중요한 것은 컨텍스트 엔지니어링입니다.

컨텍스트 엔지니어링이란 에이전트에게 충분하고 정확한 배경 정보를 제공하여, 간단한 프롬프트로도 뛰어난 결과를 얻을 수 있도록 설계하는 과정입니다. 정교한 프롬프트가 아닌, 풍부한 컨텍스트가 뛰어난 AI 직원을 만드는 핵심입니다.


5. 메모리 시스템: 세션을 넘어 자가 학습하는 에이전트

채팅 메모리 vs 에이전트 메모리: 핵심 차이 이해하기

ChatGPT나 Claude의 채팅 인터페이스를 오래 사용해 본 분이라면 이런 경험이 있을 겁니다. 새로운 채팅을 시작했는데도 AI가 “아, 지난번에 말씀하셨던 그 회사 맞죠?”라며 당신의 정보를 알아채는 것입니다. 이것이 채팅 메모리의 자동 작동 방식입니다.

채팅 모델의 메모리는 클라우드에 자동 저장됩니다. 당신이 중요한 말을 하면 AI가 판단해서 보이지 않는 어딘가에 저장하고, 다음 대화에서 꺼내 씁니다. 편리하지만 두 가지 심각한 문제가 있습니다.

첫 번째 문제는 통제 불가능성입니다. 무엇이 저장됐는지 볼 수 없고, 무엇이 삭제됐는지도 모릅니다. AI가 임의로 판단해서 저장하기 때문에 중요한 선호도가 누락될 수도 있고, 이미 바뀐 오래된 정보가 계속 남아있을 수도 있습니다.

두 번째 문제는 컨텍스트 오염입니다. 회사 A 업무 대화, 회사 B 업무 대화, 개인 생활 대화가 모두 동일한 메모리 풀에 섞입니다. 그러다 보면 “회사 A의 신제품 랜딩 페이지 카피 써줘”라고 했을 때 회사 B 이야기나 관계없는 개인 정보가 뒤섞인 결과물이 나올 수 있습니다.

Remy가 실연한 장면이 이 차이를 명확하게 보여줍니다. 에이전트에게 “내가 좋아하는 색은 라벤더야”라고 말했을 때, 에이전트는 “알겠습니다, 기억해 두겠습니다”라고 답했습니다. 하지만 실제로는 아무 곳에도 저장되지 않았습니다. 새 세션을 시작하자마자 “내가 좋아하는 색이 뭐야?”라고 물었을 때 “모르겠습니다”라는 답이 돌아왔습니다. 이것이 에이전트 메모리의 기본 상태입니다.

채팅 메모리와 에이전트 메모리의 비교:

항목채팅 모델 메모리에이전트 메모리 (memory.md)
저장 방식자동, AI 자체 판단명시적 지시에 의해 파일에 저장
가시성보이지 않음마크다운 파일로 직접 확인 가능
수정 가능 여부직접 수정 불가직접 편집 가능
컨텍스트 분리모든 대화가 혼재폴더별로 완전 분리
신뢰성AI 판단에 의존명시된 내용은 반드시 반영
이식성특정 플랫폼에 종속어떤 에이전트 하네스에서도 사용 가능

에이전트 메모리는 초기 설정이 필요하다는 단점이 있지만, 그 이상의 통제권과 신뢰성을 줍니다. 그리고 일부 최신 플랫폼(OpenClaw, Manus 등)은 이미 이 메모리 구축 과정을 자동화하고 있습니다. 그렇다 해도 내부에서는 동일한 원리가 작동하므로, 직접 구축할 줄 아는 것이 중요합니다.

memory.md 파일 설정 방법: 단계별 구축 가이드

1단계: agents.md 상단에 메모리 지침 추가

agents.md 파일 가장 위에 다음 내용을 추가합니다. 파일 상단에 배치하는 이유는 에이전트가 읽을 때 가장 먼저 인식하도록 하기 위해서입니다.

1
2
3
4
5
## ⚡ 최우선 지침 (모든 세션 시작 시 반드시 실행)
1. `memory.md` 파일을 읽어 내가 이전에 학습한 선호도와 수정사항을 파악하세요.
2. 내가 작업 중 실수를 수정하거나 새로운 선호도를 말하면, 즉시 `memory.md`의 해당 섹션을 업데이트하세요.
3. 업데이트 시에는 이전 내용을 그 자리에서 교체하세요. 중복 누적은 금지입니다.
4. 매우 사소한 일회성 요청(예: "오늘만 이 형식으로 해줘")은 저장하지 마세요.

2단계: memory.md 파일 생성

executive-assistant 폴더 안에 memory.md를 새로 만듭니다. 처음에는 비어있는 섹션들로 구성합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# 메모리 파일 — 실행 비서

> 이 파일은 에이전트가 자동으로 업데이트합니다. 직접 편집도 가능합니다.
> 마지막 업데이트: (에이전트가 자동 기록)

## 이메일 및 커뮤니케이션
- (학습된 선호도가 이곳에 저장됩니다)

## 작업 방식 및 포맷
- (학습된 선호도가 이곳에 저장됩니다)

## 클라이언트별 특이사항
- (학습된 선호도가 이곳에 저장됩니다)

## 도구 사용 패턴
- (학습된 선호도가 이곳에 저장됩니다)

## 수정된 오류 목록
- (반복 실수 방지를 위한 기록)

3단계: 실제 작동 확인

설정이 완료되면 Cowork나 Claude Code에서 새 세션을 열고 “내 좋아하는 색은 라벤더야”라고 입력합니다. 에이전트가 다음과 같이 반응합니다.

“알겠습니다! memory.md에 저장하겠습니다.”

그리고 실제로 memory.md 파일을 열면 다음 내용이 추가되어 있습니다.

1
2
## 작업 방식 및 포맷
- 선호 색상: 라벤더 (디자인 관련 작업 시 참고)

이제 새 세션을 다시 열어 “내가 좋아하는 색이 뭐야?”라고 물어보면, 에이전트는 memory.md를 읽어 “라벤더입니다”라고 정확하게 답합니다.

실제로 쌓이는 메모리의 예시:

시간이 지나면서 memory.md는 다음과 같이 풍성해집니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
## 이메일 및 커뮤니케이션
- 이메일 서명: "Warm regards" 사용 (절대 "Cheers" 금지)
- 클라이언트 이메일 톤: 전문적이되 너무 딱딱하지 않게
- 이메일 길이: 3단락 이내로 간결하게

## 작업 방식 및 포맷
- 보고서는 항상 요약 → 세부내용 순서로 작성
- 표 사용 시 색상은 라벤더(#E6E6FA) 헤더 사용
- 코드 블록은 항상 언어 명시 (예: ```python)

## 클라이언트별 특이사항
- 클라이언트 A사: 의사결정이 느리므로 메일에 명확한 데드라인 명시
- 클라이언트 B사: CEO 직접 연락 선호, 중간 담당자 CC 불필요

## 수정된 오류 목록
- 날짜 형식: MM/DD/YYYY 아닌 YYYY년 MM월 DD일 형식 사용
- 회사명 표기: "ABC Inc." 아닌 "ABC 주식회사"로 통일

메모리가 만들어내는 자가 개선 루프

메모리 시스템의 진정한 가치는 오류가 시간이 지날수록 줄어든다는 점에 있습니다. 처음에는 많은 수정이 필요하지만, 몇 주가 지나면 에이전트는 당신의 선호도를 정확히 파악하게 됩니다. 몇 달이 지나면 당신 없이도 거의 완벽한 결과물을 냅니다.

이것이 바로 자가 개선 루프입니다. 마치 훌륭한 직원이 처음에는 피드백을 많이 받지만, 시간이 지나면서 점점 피드백 없이도 일을 완벽하게 처리하는 것과 같습니다.

메모리 파일 관리 팁:

  • 파일이 너무 커지면 에이전트에게 “중요하지 않거나 이미 반영된 내용은 정리해줘”라고 요청하세요.
  • 200줄 이상이 되지 않도록 주기적으로 검토하는 것이 좋습니다.
  • “사소한 수정만 저장하지 말고 중요한 선호도 변경만 기록해”라고 지침을 추가하면 파일이 더 깔끔하게 유지됩니다.

6. MCP (Model Context Protocol): 도구 연결의 표준

MCP가 탄생한 배경

MCP 이전에는 AI 에이전트가 외부 도구와 통신하려면 각 도구마다 별도의 커스텀 개발이 필요했습니다. Claude는 영어를 쓰는데, Notion은 스페인어, Gmail은 프랑스어, Slack은 중국어를 쓰는 것과 같은 상황이었습니다. 각 조합마다 번역기를 따로 만들어야 했습니다.

Anthropic이 2024년 11월에 MCP(Model Context Protocol)를 발표하면서 이 문제가 해결됐습니다. MCP는 AI와 외부 도구 사이에 놓인 범용 번역기입니다. 에이전트는 MCP를 통해 어떤 도구와도 표준화된 방식으로 통신할 수 있게 됐습니다.

MCP의 현재 상황 (2026년 3월 기준)

MCP는 발표 이후 빠르게 업계 표준으로 자리 잡았습니다. 현재 1만 개 이상의 공개 MCP 서버가 존재하며, ChatGPT, Cursor, Gemini, Microsoft Copilot, VS Code 등 주요 플랫폼이 모두 MCP를 지원합니다. AWS, Google Cloud, Azure, Cloudflare 같은 클라우드 인프라도 MCP를 지원하고 있습니다.

2025년 12월에는 Anthropic이 MCP를 Linux Foundation 산하의 Agentic AI Foundation(AAIF)에 기증했습니다. OpenAI, Google, Microsoft, Amazon, Cloudflare 등이 공동 설립자로 참여해 MCP는 이제 완전한 중립 오픈 표준이 됐습니다.

Python과 TypeScript SDK가 제공되며 매월 9,700만 회 이상 다운로드됩니다.

MCP 연결 실습

Cowork나 Claude Code에서 MCP를 연결하는 과정은 매우 직관적입니다.

Claude.ai / Cowork에서 연결 방법:

  1. 설정 → 커넥터(Connectors) 메뉴로 이동합니다.
  2. 사용하려는 도구(Gmail, Google Calendar, Notion, Stripe 등)를 검색합니다.
  3. 해당 계정으로 로그인하여 연결을 승인합니다.
  4. 이제 에이전트가 해당 도구에 접근할 수 있습니다.

연결된 후에는 “오늘 받은 이메일 요약해줘”라고만 해도 에이전트가 Gmail을 직접 읽어 요약해 드립니다. “오늘 미팅 노트 기반으로 고객 제안서 초안 이메일 작성하고 Stripe 결제 링크도 만들어서 Notion에 프로젝트 추가해줘”처럼 복합적인 작업도 한 번의 프롬프트로 처리됩니다.

자주 연결하면 좋은 MCP 도구:

  • 이메일/캘린더: Gmail, Google Calendar, Outlook
  • 프로젝트 관리: Notion, Asana, Linear, Jira
  • 결제: Stripe, PayPal
  • 미팅 노트: Granola, Otter.ai
  • 파일 저장: Google Drive, Dropbox, Box
  • CRM: Salesforce, HubSpot
  • 검색: Perplexity, Brave Search
  • 코드: GitHub, GitLab

7. 스킬(Skills): AI를 위한 표준 운영 절차(SOP)

스킬이란 무엇인가

스킬은 마크다운 파일로 패키징된 재사용 가능한 표준 운영 절차(Standard Operating Procedure) 입니다. 한 번 프로세스를 설명하면 다시는 설명할 필요가 없습니다.

스킬 없이 클라이언트 제안서를 작성한다고 생각해 보세요. 에이전트에게 초안을 요청하면 “색상이 마음에 안 드는데”, “가격을 맨 아래에 배치해줘”, “이 섹션 삭제해줘”처럼 15~30분 동안 반복해서 수정 요청을 해야 합니다. 그리고 다음 주에 또 제안서를 써야 할 때는 처음부터 다시 같은 과정을 반복해야 합니다.

스킬을 만들면 그 과정 전체가 하나의 파일로 저장됩니다. 이후에는 “제안서 스킬 실행해줘, 고객은 [이름]이야”라는 한 문장으로 같은 품질의 제안서를 즉시 생성할 수 있습니다.

스킬을 만드는 두 가지 방법

방법 1: 기존 자료로 스킬 생성

이미 어떤 프로세스에 대한 자료(강의 녹취록, 매뉴얼, 가이드 등)가 있다면, 그 자료를 에이전트에게 주고 스킬을 만들어 달라고 요청할 수 있습니다.

예를 들어 Remy는 바이럴 훅(Viral Hooks) 작성 강의의 전체 녹취록을 업로드하고 이렇게 요청했습니다: “이 강의를 바탕으로 바이럴 훅 작성 스킬을 만들어 줘.” 에이전트는 강의 내용을 분석해 skill.md 파일을 자동으로 생성했고, 이후에는 “바이럴 훅 스킬 실행해줘”라는 한 마디로 항상 일관된 품질의 훅을 작성할 수 있게 됐습니다.

방법 2: 직접 프로세스를 진행한 후 스킬화

처음 어떤 작업을 진행하면서, 그 과정이 반복될 것 같다는 판단이 들면 작업이 끝난 후 이렇게 요청합니다: “우리가 방금 진행한 과정을 스킬로 만들어 줘.”

예를 들어 광고 라이브러리 분석 작업을 처음 진행할 때 Claude Code와 2시간 동안 작업했습니다. 경쟁사 광고 URL을 입력하면 → 모든 광고 스크린샷 촬영 → 비주얼 분석 → 카피 분석 → 랜딩 페이지 분석 → 종합 보고서 생성까지의 전 과정을 Claude Code가 실행하고, 작업 후 “이 과정을 광고 분석가 스킬로 만들어 줘”라고 요청했습니다. 이제 이 작업은 4시간에서 몇 분으로 단축됐습니다.

스킬의 내부 구조

스킬 파일은 다음과 같은 구조를 가집니다.

1
2
3
4
5
6
skills/
└── ads-analyst/
    ├── SKILL.md      (프로세스 설명 및 실행 방법)
    └── references/   (참고 자료, 예시, 템플릿)
        ├── analysis-template.md
        └── report-format.md

SKILL.md에는 에이전트가 이 스킬을 실행할 때 따라야 할 단계별 지침이 담겨 있습니다. References 폴더에는 그 과정에서 참조할 예시나 템플릿이 있습니다.

스킬 축적의 복리 효과

매주 3~5개의 스킬을 추가한다고 상상해 보세요. 첫 주에는 3개, 둘째 주에는 6개, 한 달이면 12~20개의 스킬이 쌓입니다. 3개월이면 수십 개의 일상적인 프로세스가 자동화됩니다. 이것이 바로 Remy가 말하는 “복리(compounding)”입니다. 첫 주에는 조금 편리한 수준이지만, 6개월 후에는 당신의 하루가 완전히 바뀌어 있을 것입니다.


8. 스킬 연결과 자동화 워크플로우

스킬을 체이닝(Chaining)하라: 작은 스킬들이 모여 강력한 워크플로우가 된다

단일 스킬의 가치도 크지만, 여러 스킬이 서로를 호출하며 연결될 때 진정한 자동화가 실현됩니다. Remy는 이를 “스킬 체이닝”이라고 부르며, 이것이 에이전트의 활용을 단순 도구 수준에서 실제 AI 직원 수준으로 끌어올리는 열쇠라고 강조합니다.

스킬 체이닝의 작동 방식

스킬 파일 안에서 다른 스킬을 호출할 수 있습니다. 예를 들어 morning-brief-skill.md 파일 안에 “오늘 미팅이 있다면 meeting-prep-skill을 실행하세요”라고 명시하면, 아침 브리핑 스킬이 실행될 때 자동으로 미팅 준비 스킬까지 연달아 실행됩니다.

팟캐스트 운영자를 위한 체이닝 예시

다음 세 가지 스킬을 각각 만든 다음 연결합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
스킬 1: guest-research-skill.md
  → 게스트 이름을 받아 배경, 최근 활동, 관심 토픽 조사
  → 조사 결과를 구조화된 보고서로 정리

스킬 2: meeting-prep-skill.md  
  → 오늘 캘린더에서 미팅 일정 확인 (Google Calendar MCP 사용)
  → 미팅이 있으면 guest-research-skill 자동 호출
  → 주요 질문 5개와 대화 흐름 초안 생성

스킬 3: morning-brief-skill.md
  → Gmail에서 받은 이메일 요약 (Gmail MCP 사용)
  → Google Calendar에서 오늘 일정 확인
  → 미팅이 있으면 meeting-prep-skill 자동 호출
  → Notion에서 진행 중인 프로젝트 현황 조회 (Notion MCP 사용)
  → 오늘의 우선 과제 3가지 도출
  → 전체 브리핑을 이메일로 발송

이 세 스킬을 연결하고 스케줄 작업으로 매일 오전 8시에 실행하도록 설정하면, 당신이 자리에 앉기도 전에 받은 편지함에 오늘의 완전한 준비 브리핑이 도착해 있습니다.

마케팅 에이전트를 위한 체이닝 예시

1
2
3
4
5
6
7
8
9
10
스킬 A: competitor-ads-scan-skill.md
  → 지정된 경쟁사 광고 라이브러리 URL 스캔
  → 새 광고 발견 시 스크린샷 및 분석

스킬 B: weekly-report-skill.md
  → 매주 월요일 competitor-ads-scan-skill 실행
  → 이번 주 새로 발견된 광고 분석 결과 취합
  → 우리 광고와 비교 분석
  → Notion 주간 리포트 페이지 자동 업데이트
  → 팀 슬랙 채널에 요약 메시지 발송 (Slack MCP 사용)

Sebastian 레퍼럴 스킬: 작은 스킬도 의미있다

Remy는 팟캐스트에서 “Sebastian 레퍼럴 스킬”을 만드는 과정을 실연했습니다. 클라이언트를 AI 자동화 에이전시를 운영하는 친구 Sebastian에게 연결해주는 이메일을 쓰는 작업입니다. 이 과정은 다음과 같습니다.

  1. Granola에서 오늘 미팅 노트를 읽어 클라이언트(Moltoshi)의 니즈를 파악
  2. Sebastian의 이메일과 에이전시 특기 분야를 컨텍스트로 로드
  3. 두 사람을 자연스럽게 연결하는 소개 이메일 초안 작성
  4. Gmail MCP를 통해 초안 이메일 저장

이 작업 자체는 15분짜리입니다. 하지만 Remy는 앞으로도 클라이언트를 Sebastian에게 레퍼럴할 일이 몇 번 더 생길 것을 알기에, 즉시 스킬로 만들었습니다. 이후에는 “Sebastian에게 레퍼럴해줘”라는 한 마디로 동일한 품질의 이메일이 즉시 완성됩니다. 이것이 스킬 체이닝이 아닌 단일 스킬이더라도, 반복적인 소규모 프로세스를 모두 스킬화하는 것이 중요한 이유입니다.

스케줄 작업으로 완전한 자동화 구현

Cowork, OpenClaw 등 주요 플랫폼은 이제 스케줄 작업(Scheduled Tasks) 기능을 지원합니다. cron 표현식을 사용하거나 직관적인 UI로 특정 시간에 스킬을 자동 실행할 수 있습니다.

실제 자동화 예시:

  • 매일 오전 9시: 아침 브리핑 스킬 실행
  • 매주 목요일 오전 10시: AI 뉴스 리서치 스킬 실행 → 뉴스레터 초안 생성
  • 3시간마다: 특정 조건을 가진 중고차 매물 검색 → 새 매물 발견 시 알림 발송

실제 사례: 자동 차량 검색 — 집착을 자동화로 전환하기

Greg이 팟캐스트에서 직접 공유한 이 사례는 에이전트 자동화의 매력을 가장 잘 보여주는 예시 중 하나입니다.

Greg은 특정 색상과 옵션 조합의 차량을 구매하려 했는데, 그 조합이 매우 드물어 매물이 거의 없었습니다. 그래서 매일 CarMax, Cars.com, AutoTrader, 그리고 몇몇 다른 중고차 플랫폼을 반복적으로 새로고침하며 확인하는 생활을 하고 있었습니다. 본인 스스로도 “안 그러면 하루에 한 시간씩 새로고침하는 미친 사람이 됐을 것”이라고 표현했을 정도입니다.

스킬 구성 방법:

Greg은 이 반복 작업을 에이전트 스킬로 만들었습니다. 스킬의 구조는 대략 다음과 같습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
# 차량 검색 스킬 (car-search-skill.md)

## 목적
지정된 조건에 맞는 중고차 매물을 여러 플랫폼에서 동시에 검색하고,
새 매물 발견 시 즉시 알림을 보냅니다.

## 검색 조건
- 차종: [원하는 차종]
- 색상: [특정 색상]
- 연식: 2022년 이후
- 주행거리: 50,000km 이하
- 가격 상한: [금액]

## 검색 대상 플랫폼
1. CarMax (carmax.com)
2. Cars.com
3. AutoTrader
4. Craigslist (해당 지역)
5. Facebook Marketplace

## 실행 절차
1. 각 플랫폼을 웹 검색 또는 웹 스크래핑으로 조회
2. 조건에 맞는 매물 목록 수집
3. 지난 검색 결과와 비교하여 새 매물 식별
4. 새 매물이 있으면 Gmail로 알림 이메일 발송
5. 검색 결과를 search-log.md에 타임스탬프와 함께 기록

## 알림 이메일 형식
제목: 🚗 새 차량 매물 발견 — [차종] [색상]
내용: 매물명, 가격, 주행거리, 플랫폼, 링크

스케줄 작업과 결합:

이 스킬을 Cowork나 Claude Code의 스케줄 작업 기능으로 3시간마다 자동 실행하도록 설정했습니다. 이제 Greg은 차량 플랫폼을 한 번도 직접 열지 않습니다. 새 매물이 올라오면 이메일 알림이 오고, 그때만 확인하면 됩니다.

이 사례가 중요한 이유는 단순히 시간을 아꼈다는 것이 아닙니다. 인간의 비합리적인 집착과 반복 행동을 에이전트가 대신 수행하게 함으로써, 인간은 더 중요한 일에 에너지를 집중할 수 있게 된다는 점입니다. 에이전트는 지치지 않고, 잊지 않고, 3시간마다 정확하게 실행합니다.

이 패턴은 차량 검색 외에도 다양하게 응용됩니다. 특정 가격대 이하로 떨어진 항공권 모니터링, 특정 키워드가 언급된 뉴스 알림, 경쟁사 웹사이트 변경 사항 감지, 원하는 부동산 매물 알림 등 어떤 반복 검색 작업이든 동일한 방식으로 자동화할 수 있습니다.

스타트업 아이디어: 스킬과 에이전트를 활용한 비즈니스

에이전트 루프 데모에서 흥미로운 비즈니스 아이디어도 등장했습니다. 에이전트를 사용해 지역 소상공인들의 웹사이트를 미리 만들어 두고, “이 사이트 마음에 드시면 250달러에 드립니다”는 내용의 콜드 이메일을 대량 발송하는 방식입니다. 에이전트가 사이트 제작부터 이메일 발송까지 모두 처리하므로 인건비 없이 스케일을 키울 수 있습니다.


9. 글로벌 레벨 vs 프로젝트 레벨

두 가지 적용 범위

이미지에 표현된 것처럼, 에이전트 설정은 글로벌(Global)프로젝트(Project) 두 단계로 나뉩니다.

글로벌 레벨은 모든 프로젝트에 공통으로 적용되는 설정입니다.

  • Identity / Voice (정체성 / 목소리): 에이전트의 기본 정체성, 커뮤니케이션 스타일, 당신이 누구인지에 대한 기본 정보
  • Core MCPs (핵심 도구): Gmail, Google Calendar, Notion처럼 모든 작업에서 항상 필요한 도구 연결
  • Universal Skills (범용 스킬): 어떤 프로젝트에서도 쓰는 스킬들. 예를 들어 “긴 문장을 압축해주는 truncate 스킬”은 마케팅 팀에서도, 세일즈 팀에서도 모두 유용합니다.

프로젝트 레벨은 각 프로젝트에만 적용되는 설정입니다.

  • Project A: 클라이언트 A의 목소리와 문서, A 전용 워크플로우
  • Project B: 브랜드 가이드, API 스펙, B 전용 워크플로우

예를 들어 “Sebastian에게 레퍼럴하는 스킬”은 실행 비서 프로젝트에만 필요한 스킬입니다. 마케팅 팀 에이전트에게는 이 스킬이 있을 필요가 없습니다. 이를 프로젝트 레벨 스킬로 설정하면 컨텍스트를 낭비하지 않고 필요한 곳에만 적용할 수 있습니다.

설계 원칙: 자주 쓸수록 글로벌에, 특정 상황에만 쓸수록 프로젝트에 배치합니다. 처음에는 모든 것을 프로젝트 레벨로 시작해서, 여러 프로젝트에서 반복적으로 필요하다는 것이 확인된 것만 글로벌로 올리는 방식이 안전합니다.


10. 보안과 권한 설계

권한은 “필요한 최소한”으로

에이전트에게 너무 많은 권한을 주면 위험합니다. 에이전트가 Meta 광고 예산을 직접 조정할 수 있다면, 잘못된 판단이나 보안 침해 시 큰 손실이 발생할 수 있습니다.

권한 설계 원칙:

  1. 읽기 전용부터 시작: 처음에는 중요한 도구에 읽기 전용(read-only) 권한만 부여합니다.
  2. 단계적 확장: 에이전트의 판단력을 충분히 검증한 후 쓰기 권한을 추가합니다.
  3. 고위험 작업은 항상 인간 검토: 이메일 발송, 결제 처리, 광고 예산 변경은 에이전트가 초안을 작성하고 인간이 최종 승인하는 방식이 안전합니다.
  4. 각 에이전트는 업무에 필요한 도구만: 마케팅 에이전트에게 Stripe 결제 처리 권한을 줄 필요는 없습니다.

Claude Code, Codex, Antigravity는 대기업이 운영하는 만큼 기본 보안 수준이 높습니다. 반면 OpenClaw 같은 고자율 플랫폼은 “와일드 웨스트(Wild West)”에 가까운 만큼, 더 신중한 권한 설계가 필요합니다.

음성-텍스트 변환: 에이전트 입력의 효율을 10배 높이는 방법

에이전트에게 복잡한 지시를 타이핑하는 것은 생각보다 큰 마찰입니다. “오늘 오전 미팅에서 Moltoshi가 말한 내용 기반으로, Sebastian에게 레퍼럴 이메일 초안 작성하고, Notion에 후속 과제 항목 추가하고, 다음 주 화요일에 팔로업 캘린더 이벤트 만들어줘” 같은 지시를 타이핑하면 수십 초가 걸립니다. 말로 하면 5초입니다.

Remy가 팟캐스트에서 사용하는 방식이 바로 이것입니다. 컴퓨터 앞에 앉아 버튼 하나를 누른 채 말하면, 그 내용이 깔끔한 텍스트로 변환되어 에이전트의 입력창에 입력됩니다. 영어뿐 아니라 한국어도 높은 정확도로 지원됩니다.

이 기능을 제공하는 대표적인 두 가지 도구를 자세히 살펴봅니다.


Monologue

Monologue는 Every(뉴스레터 플랫폼)의 팀이 개발한 macOS 전용 음성-텍스트 변환 도구입니다. 단순한 받아쓰기 앱이 아니라, AI 에이전트와의 협업을 염두에 두고 설계됐습니다.

사용 방법은 간단합니다. 설정에서 단축키(예: Option 키 두 번 클릭 또는 특정 버튼 홀드)를 지정하면, 그 버튼을 누르는 동안 말한 내용이 실시간으로 텍스트로 변환됩니다. 버튼을 놓는 순간 변환이 완료되고, 커서가 있는 위치에 바로 텍스트가 입력됩니다. Cowork, Claude Code, 심지어 이메일 창에서도 동일하게 작동합니다.

AI 기반 후처리가 탑재되어 있어 “음”, “어” 같은 불필요한 발화나 배경 소음을 자동으로 걸러냅니다. 또한 맥락을 파악해 구어체를 자연스러운 문어체로 변환해주는 기능도 있습니다.

활용 팁:

  • 에이전트에게 긴 작업 지시를 줄 때 특히 효과적입니다.
  • 복잡한 회의 후 리캡을 말로 하면 에이전트가 즉시 정리해 줍니다.
  • 이동 중이거나 손을 쓸 수 없는 상황에서도 에이전트를 활용할 수 있습니다.

WhisperFlow

WhisperFlow는 OpenAI의 Whisper 모델을 기반으로 하는 음성-텍스트 변환 도구입니다. Monologue와 달리 macOS와 Windows 모두 지원하며, 오픈소스 버전도 존재합니다.

Whisper 모델은 99개 언어를 지원하며 한국어 인식 정확도도 매우 높습니다. WhisperFlow는 이 모델을 로컬에서 실행하는 옵션과 API로 실행하는 옵션을 모두 제공합니다. 로컬 실행 시 인터넷 연결 없이도 사용 가능하고, 음성 데이터가 외부 서버로 전송되지 않아 보안에 민감한 업무에 적합합니다.

Monologue vs WhisperFlow 비교:

항목MonologueWhisperFlow
지원 OSmacOSmacOS, Windows
기반 기술자체 AI 모델OpenAI Whisper
로컬 실행제한적가능
UI/UX매끄럽고 직관적기능 중심
가격유료 (구독)무료/오픈소스 버전 존재
한국어 지원지원높은 정확도 지원

두 도구 모두 에이전트 활용 생산성을 크게 높여줍니다. macOS 사용자이고 매끄러운 경험을 원한다면 Monologue를, Windows 사용자이거나 오픈소스를 선호한다면 WhisperFlow를 추천합니다.


11. 초보자를 위한 단계별 실행 플랜

Week 1: 기반 구축

1일차: 에이전트 하네스 선택 및 설치
Cowork 또는 Claude.ai (Cowork 기능)에서 시작합니다. 계정을 만들고 인터페이스에 익숙해지세요.

2일차: 폴더 구조 생성
컴퓨터에 ai-workspace 폴더를 만들고, 그 안에 executive-assistant 폴더를 생성합니다.

3~4일차: agents.md 파일 작성
에이전트에게 “나에 대한 agents.md 파일을 만들어 줘, 인터뷰 형식으로 필요한 정보를 물어봐”라고 요청합니다. 에이전트가 질문을 통해 당신에게 맞는 컨텍스트 파일을 작성해 줄 것입니다.

5~7일차: 기본 작업 테스트
이메일 초안 작성, 일정 확인, 간단한 리서치 등 기본 작업을 에이전트에게 맡겨 보세요.

Week 2: 도구 연결과 메모리 구축

8~9일차: MCP 도구 연결
Gmail, Google Calendar, Notion 중 가장 자주 쓰는 도구부터 연결합니다.

10~11일차: memory.md 설정
agents.md에 메모리 지침을 추가하고 memory.md 파일을 생성합니다. 에이전트와 작업하면서 자연스럽게 선호도를 말하고 메모리가 업데이트되는 것을 확인합니다.

12~14일차: 첫 번째 복합 작업
“오늘 미팅 노트 기반으로 고객 이메일 초안 작성해줘”처럼 여러 도구를 연결하는 작업을 시도합니다.

Week 3~4: 스킬 빌딩

반복되는 일상 업무를 파악하고, 가장 자주 하는 작업 3가지를 스킬로 만들어 보세요. 작업이 끝나고 “이 과정을 스킬로 만들어 줘”라고 하는 습관을 들이면 됩니다.

Month 2 이후: 자동화와 확장

스케줄 작업을 도입하고, 스킬을 체이닝하기 시작합니다. 실행 비서가 안정적으로 작동하면 마케팅 팀, 세일즈 팀 같은 다른 부서 에이전트를 추가합니다. 충분히 검증된 프로세스는 OpenClaw 같은 고자율 플랫폼으로 이전을 고려합니다.


별첨: 주요 플랫폼 및 프레임워크 상세 설명


A. Claude Code

개발사: Anthropic
출시: 2025년 2월 (베타), 이후 지속 업데이트
현재 버전: Claude Code 2.1.x (2026년 1월 기준)

Claude Code는 터미널(명령줄 인터페이스)에서 작동하는 코딩 특화 에이전트 하네스입니다. Anthropic의 Claude 모델(Opus 4.6, Sonnet 4.6 등)을 기반으로 동작하며, 에이전트 루프의 각 단계를 가장 투명하게 시각화하는 것으로 알려져 있습니다.

주요 특징:

Claude Code는 컨텍스트 파일로 CLAUDE.md를 사용하며, .claude/ 폴더 내에 스킬과 에이전트 설정을 저장합니다. 2025년에만 176개의 업데이트를 출시했으며, Plan Mode, Subagents, Skills, 컨텍스트 압축(Compaction) 등의 기능이 추가됐습니다.

Claude Code 2.1.0부터 에이전트와 스킬에 대한 훅(Hooks) 기능이 추가되어, PreToolUse, PostToolUse, Stop 시점에 맞춤형 로직을 실행할 수 있습니다. 이를 통해 상태 관리, 도구 제한, 감사 로깅이 가능해졌습니다.

강점:

  • Claude 모델에 최적화된 하네스 설계
  • 에이전트 루프의 투명한 시각화
  • 강력한 MCP 통합 지원
  • 스킬 크리에이터(Skill Creator) 스킬 내장
  • VS Code 확장 플러그인 지원

약점:

  • 터미널 기반이라 비개발자에게 초기 진입 장벽 있음
  • 컨텍스트 윈도우가 경쟁사(200K) 대비 다소 작음

사용 시작:

1
2
npm install -g @anthropic-ai/claude-code
claude

B. Codex (OpenAI)

개발사: OpenAI
특징: GPT 계열 모델 및 Gemini 모델 지원

Codex는 OpenAI의 에이전트 하네스 플랫폼으로, AGENTS.md 파일을 컨텍스트 파일로 사용합니다. Claude Code와 유사한 구조를 가지며, 샌드박스 환경에서 코드 실행 권한을 제어할 수 있습니다.

주요 특징:

  • AGENTS.md 파일 기반 컨텍스트 관리
  • GPT-5 계열 모델 지원
  • Claude Code와의 스킬 파일 호환성 일부 지원
  • 샌드박스 권한 시스템으로 보안 강화

C. MCP (Model Context Protocol)

개발사: Anthropic (현재 Linux Foundation 관리)
발표: 2024년 11월
현재 상태: 업계 표준 오픈 소스 프로토콜

MCP는 AI 에이전트가 외부 도구 및 데이터 소스와 표준화된 방식으로 통신하기 위한 오픈 프로토콜입니다. JSON-RPC 2.0 기반으로 설계됐으며, Language Server Protocol(LSP)에서 영감을 받았습니다.

아키텍처 구조:

1
2
[AI 에이전트] ←→ [MCP 클라이언트] ←→ [MCP 서버] ←→ [외부 도구/데이터]
                    (표준 프로토콜)

MCP는 세 가지 핵심 기능을 제공합니다:

  • Resources: 파일, 데이터베이스, API 등 외부 데이터 접근
  • Tools: 함수 실행, API 호출 등 실제 작업 수행
  • Prompts: 재사용 가능한 프롬프트 템플릿 제공

현재 생태계 현황 (2026년 3월):

  • 공개 MCP 서버: 10,000개 이상
  • 지원 플랫폼: Claude, ChatGPT, Cursor, VS Code, Gemini, Microsoft Copilot 등
  • 공식 SDK: Python, TypeScript, C#, Java
  • 월간 SDK 다운로드: 9,700만 회 이상

MCP Apps (2026년 1월 신규):
MCP의 최신 확장으로, 도구 응답으로 텍스트 대신 대화 내 렌더링되는 인터랙티브 UI 컴포넌트(대시보드, 폼, 시각화 등)를 반환할 수 있게 됐습니다.

MCP Elicitation (2026년 최신):
MCP 서버가 작업 도중 구조화된 입력(폼 필드 또는 브라우저 URL)을 인터랙티브 다이얼로그로 요청할 수 있는 기능이 추가됐습니다.


D. Cowork

개발사: Anthropic (Claude 기반)
특징: 비개발자 친화적인 UI

Cowork는 Claude 모델을 기반으로 하는 데스크탑 에이전트 하네스로, 파일 및 작업 관리 자동화에 특화되어 있습니다. 코딩 지식 없이도 에이전트를 설정하고 사용할 수 있는 직관적인 UI를 제공합니다. 스케줄 작업 기능이 내장되어 있어 cron 없이도 반복 작업을 자동화할 수 있습니다.

초보자에게 추천하는 이유:

  • 마크다운 파일 기반 구조를 시각적으로 확인 가능
  • MCP 커넥터 연결이 GUI로 가능
  • 에이전트 루프의 작동이 직관적으로 표시됨

E. OpenClaw

특징: 높은 자율성, 오픈소스 지향

OpenClaw는 에이전트 하네스 중 가장 높은 자율성을 제공하는 플랫폼입니다. agents.md 기반 컨텍스트 관리 외에도 soul(성격), identity(정체성) 같은 추가적인 마크다운 파일을 통해 에이전트에 더 깊은 페르소나를 부여할 수 있습니다.

주의사항:

  • 설정이 복잡하고 초보자에게 어려움
  • 높은 자율성인 만큼 권한 설계에 더 주의 필요
  • Claude Code에서 검증된 스킬과 컨텍스트 파일을 이전(migrate)하는 방식 권장

F. Manus

특징: 자동 메모리 내장, 멀티 태스크

Manus는 중국 AI 스타트업 Monica이 개발한 에이전트 플랫폼으로, 메모리 시스템이 일부 자동으로 작동합니다. 여러 브라우저 탭과 도구를 동시에 제어할 수 있어 복잡한 리서치 작업에 강점이 있습니다.


G. Perplexity Computer

특징: 웹 검색 기반 에이전트

Perplexity Computer는 Perplexity AI의 에이전트 플랫폼으로, 웹 검색과 실시간 정보 수집에 특화되어 있습니다. 초보자에게도 쉬운 인터페이스를 제공합니다.


H. 음성-텍스트 변환 도구

Monologue (Every 팀 개발)

  • 단축키(예: 특정 버튼 홀드)를 누르면 음성이 바로 텍스트로 변환
  • macOS 지원
  • AI 기반 노이즈 처리로 정확도 높음

WhisperFlow

  • OpenAI Whisper 모델 기반
  • 크로스 플랫폼 지원
  • 무료 오픈소스 버전 존재

이 도구들을 활용하면 에이전트에게 긴 지시를 타이핑하는 대신 자연스럽게 말하는 방식으로 작업 효율을 높일 수 있습니다.


I. Granola (미팅 노트 도구)

Granola는 AI 기반 미팅 노트 자동화 도구입니다. 회의 중 자동으로 대화를 기록하고, 구조화된 미팅 노트를 생성합니다. MCP를 통해 에이전트와 연결하면 “오늘 미팅 내용 기반으로 후속 이메일 초안 작성해줘”처럼 미팅 내용을 컨텍스트로 활용할 수 있습니다.


마치며

AI 에이전트 구축의 핵심은 복잡한 기술 지식이 아닙니다. 에이전트 루프라는 단순한 원리를 이해하고, 에이전트에게 충분한 컨텍스트를 제공하고, 반복 업무를 스킬로 쌓아나가는 습관입니다.

처음에는 작게 시작하세요. 실행 비서 하나를 만들고, 이메일 초안 작성 하나를 자동화하는 것부터 시작하면 됩니다. 그 작은 시작이 몇 달 후에는 AI가 운영하는 부서로 성장하게 됩니다.

“하나를 배우면 모두를 사용할 수 있다. 플랫폼은 달라도 엔진은 같다.”
— Remy Gaskell


작성일: 2026년 3월 18일
참고: The Startup Ideas Podcast – AI 에이전트로 기업 부서 운영하기 (Remy Gaskell × Greg Isenberg)
최신 정보 반영: Claude Code 2.1.x, MCP 2025-11-25 Spec, MCP Apps (2026년 1월)

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.