포스트

Claude API를 활용한 AI 에이전트 시스템 구축: 완전 가이드

Claude API를 활용한 AI 에이전트 시스템 구축: 완전 가이드

서론

인공지능 기술의 발전과 함께 AI 에이전트의 역할은 단순한 질의응답에서 복잡한 작업을 자율적으로 수행하는 수준으로 진화하고 있습니다. Anthropic은 이러한 변화에 발맞춰 Claude API를 지속적으로 발전시키며, 개발자들이 더욱 강력하고 실용적인 AI 에이전트를 구축할 수 있도록 지원하고 있습니다.

Anthropic의 Katelyn Lesse가 발표한 “Evolving Claude APIs for Agents”는 이러한 API 진화의 방향성을 세 가지 핵심 영역으로 제시했습니다. 첫째는 Claude의 기본 능력을 확장하여 더 깊이 있는 추론과 안정적인 도구 사용을 가능하게 하는 것이고, 둘째는 제한된 컨텍스트 윈도우를 효율적으로 관리하는 것이며, 셋째는 Claude에게 실제 코드를 실행할 수 있는 인프라를 제공하는 것입니다. 이 문서는 이러한 핵심 개념들을 최신 정보와 함께 종합적으로 설명합니다.


1. Claude의 기능 활용: 지능적 추론의 새로운 지평

확장된 사고(Extended Thinking)의 혁신

AI 모델의 능력을 평가할 때 우리는 종종 얼마나 빠르게 답을 내놓는지에 주목합니다. 하지만 인간의 사고 과정을 돌아보면, 복잡한 문제일수록 더 많은 시간을 들여 깊이 생각하고 여러 관점에서 검토하는 것이 중요합니다. Anthropic의 확장된 사고 기능은 바로 이러한 인간의 사고 패턴을 AI에 적용한 혁신적인 접근법입니다.

확장된 사고는 Claude가 답변을 즉시 생성하는 대신, 문제를 다각도로 분석하고 여러 단계의 추론을 거쳐 결론에 도달하도록 합니다. 이 과정은 “직렬 테스트 타임 컴퓨트(serial test-time compute)”라고 불리는데, 이는 순차적인 추론 단계를 통해 점진적으로 계산 자원을 투입하는 방식을 의미합니다. 개발자는 API 요청을 보낼 때 토큰 예산을 설정할 수 있으며, 이는 Claude가 얼마나 오랫동안 생각할 수 있는지를 결정합니다. 예를 들어, 간단한 질문에는 적은 토큰 예산을 할당하고, 복잡한 수학 문제나 다단계 논리 추론이 필요한 작업에는 더 많은 토큰 예산을 할당할 수 있습니다.

확장된 사고의 효과는 실제 벤치마크 테스트에서 명확하게 드러났습니다. 2024년 미국 수학 경시대회(AIME) 문제를 대상으로 한 테스트에서, 허용된 사고 토큰 수가 증가할수록 정확도가 로그 스케일로 향상되는 패턴이 관찰되었습니다. 이는 단순히 더 많은 계산을 수행하는 것이 아니라, 실제로 문제를 더 깊이 이해하고 체계적으로 접근한다는 것을 의미합니다. 마치 학생이 어려운 문제를 풀 때 충분한 시간을 갖고 여러 풀이 방법을 시도해보는 것처럼, Claude도 시간을 들여 다양한 접근 방식을 탐색하고 최선의 해결책을 찾아냅니다.

더욱 흥미로운 점은 확장된 사고가 장기적인 작업 수행 능력을 크게 향상시킨다는 것입니다. OSWorld라는 벤치마크는 AI 모델이 가상 컴퓨터 환경에서 실제 작업을 수행하는 능력을 측정하는데, Claude 3.7 Sonnet은 이 테스트에서 시간이 지날수록 성능이 지속적으로 향상되는 모습을 보였습니다. 초기에는 약간 더 나은 성능을 보이던 것이, 작업이 진행되면서 점점 더 큰 성능 차이로 발전했습니다. 이는 Claude가 단순히 개별 명령을 실행하는 것을 넘어, 전체적인 맥락을 이해하고 전략을 조정하며 학습한다는 것을 보여줍니다.

실제로 Anthropic은 Claude가 포켓몬 레드 게임을 플레이하도록 하는 재미있는 실험을 진행했습니다. 이전 버전의 Claude 모델들은 게임 초반에 막혀서 더 이상 진행하지 못했고, Claude 3.0 Sonnet은 심지어 시작 지점인 집에서 나가지도 못했습니다. 하지만 확장된 사고 기능을 갖춘 Claude 3.7 Sonnet은 게임을 훨씬 더 진행하여 세 명의 체육관 관장과 싸워 이기고 배지를 획득했습니다. 이 과정에서 Claude는 여러 전략을 시도하고 이전 가정들을 재검토하면서 스스로 능력을 향상시켰습니다. 이는 게임이라는 엔터테인먼트 맥락을 넘어, AI 에이전트가 복잡하고 개방적인 목표를 달성하기 위해 장기간 집중력을 유지하고 적응할 수 있음을 보여주는 중요한 증거입니다.

Claude 4 모델 패밀리의 하이브리드 접근

2025년 출시된 Claude 4 모델 패밀리는 확장된 사고를 한 단계 더 발전시켰습니다. Claude Opus 4와 Sonnet 4는 하이브리드 추론 모델로 설계되어, 두 가지 운영 모드를 제공합니다. 일반적인 작업에는 거의 즉각적인 응답을 제공하는 표준 모드를 사용하고, 복잡한 문제에는 깊이 있는 추론을 수행하는 확장된 사고 모드를 활성화할 수 있습니다. 사용자나 개발자는 작업의 성격에 따라 이 두 모드 사이를 자유롭게 전환할 수 있습니다.

Claude Opus 4는 특히 코딩 작업에서 세계 최고 수준의 성능을 보여줍니다. SWE-bench라는 실제 소프트웨어 엔지니어링 작업을 평가하는 벤치마크에서 72.5%의 점수를 기록했는데, 이는 실제 코드베이스의 복잡한 버그를 수정하고 새로운 기능을 구현하는 능력을 의미합니다. Terminal-bench에서도 43.2%의 점수로 선두를 차지했습니다. 이러한 성능은 단순히 코드를 생성하는 것을 넘어, 대규모 코드베이스의 맥락을 이해하고 기존 아키텍처와 조화롭게 작동하는 코드를 작성할 수 있음을 보여줍니다.

더욱 인상적인 것은 Claude Opus 4가 장시간에 걸친 작업을 수행할 수 있다는 점입니다. 이 모델은 집중력을 유지하며 수천 개의 단계가 필요한 작업을 완수할 수 있으며, 실제로 몇 시간 동안 연속적으로 작업을 수행하는 것이 가능합니다. Cursor와 Augment Code 같은 기업들은 Claude Opus 4를 사용한 후 코딩 품질과 작업 성공률에서 상당한 향상을 보고했습니다. 특히 복잡한 코드베이스를 이해하고 정교한 코드 수정을 수행하는 능력이 크게 개선되었다고 평가했습니다.

Claude Sonnet 4.5는 2025년 후반에 출시되어 대부분의 작업에서 최고 수준의 지능을 제공하면서도 효율성을 유지합니다. 이 모델은 복잡한 에이전트 작업과 코딩에 특화되어 있으며, 실제로 30시간 이상의 복잡한 다단계 작업에서도 집중력을 유지하는 모습을 보였습니다. SWE-bench Verified에서는 최고 점수를 기록했으며, OSWorld에서는 61.4%의 성능으로 이전 Sonnet 4의 42.2%를 크게 뛰어넘었습니다. 이는 불과 몇 달 사이에 일어난 비약적인 발전입니다.

확장된 사고와 도구 사용의 통합

2024년 후반부터 Claude는 확장된 사고 과정 중에 도구를 사용할 수 있는 능력을 갖추게 되었습니다. 이는 AI 에이전트의 능력을 혁신적으로 확장시킨 중요한 발전입니다. 과거에는 Claude가 먼저 생각하고, 그 결과를 바탕으로 도구를 호출하고, 도구 결과를 받아 다시 생각하는 순차적인 과정을 거쳤습니다. 하지만 이제는 사고 과정 중에 필요할 때마다 도구를 호출할 수 있어, 추론과 정보 수집이 자연스럽게 교차됩니다.

예를 들어, 복잡한 연구 질문에 답하는 경우를 생각해보겠습니다. Claude는 먼저 문제를 분석하고 어떤 정보가 필요한지 파악합니다. 그런 다음 웹 검색 도구를 사용하여 관련 정보를 수집하고, 수집된 정보를 바탕으로 다시 깊이 사고합니다. 이 과정에서 추가 정보가 필요하다고 판단하면 다시 검색을 수행하고, 충분한 정보가 모였다고 판단되면 종합적인 분석을 수행합니다. 이러한 유연한 접근 방식은 인간 연구자가 문헌을 조사하고 분석하는 과정과 매우 유사합니다.

도구 사용의 진화: 안정성에서 효율성까지

Claude의 도구 사용 능력은 초기부터 매우 안정적이었습니다. Claude는 언제 도구를 호출해야 하는지, 어떤 도구를 사용해야 하는지, 그리고 어떤 매개변수를 전달해야 하는지를 정확하게 판단하도록 훈련되었습니다. 개발자는 도구의 스키마를 JSON 형식으로 정의하기만 하면 되고, Claude는 자연어 요청을 적절한 도구 호출로 변환합니다.

Claude 4 모델들은 여기서 한 걸음 더 나아가 병렬 도구 실행 기능을 도입했습니다. 여러 독립적인 작업을 동시에 수행해야 하는 경우, Claude는 이를 감지하고 여러 도구를 병렬로 호출합니다. 예를 들어, 여러 데이터 소스에서 정보를 수집해야 하는 경우, 각 소스에 대한 API 호출을 동시에 실행하여 전체 작업 시간을 크게 단축시킵니다. 이는 단순히 빠른 응답을 제공하는 것을 넘어, 실제 프로덕션 환경에서 효율적으로 작동할 수 있는 에이전트를 구축하는 데 필수적인 기능입니다.

프로그래밍 방식 도구 호출의 혁신

2025년에 도입된 프로그래밍 방식 도구 호출(Programmatic Tool Calling)은 도구 사용 패러다임을 근본적으로 변화시켰습니다. 전통적인 방식에서는 Claude가 도구를 호출하고, 결과를 받아 컨텍스트에 추가하고, 다시 사고하는 과정을 반복했습니다. 이는 각 도구 호출마다 컨텍스트 윈도우의 토큰을 소비하며, 수백 또는 수천 번의 도구 호출이 필요한 경우 컨텍스트가 빠르게 포화됩니다.

프로그래밍 방식 도구 호출에서는 Claude가 전체 워크플로를 오케스트레이션하는 Python 스크립트를 작성합니다. 이 스크립트는 안전한 샌드박스 환경(코드 실행 도구)에서 실행되며, 외부 도구의 결과가 필요할 때만 일시 중지됩니다. 도구 결과가 API를 통해 반환되면, 이는 모델이 아닌 스크립트에 의해 처리됩니다. 스크립트는 계속 실행되며 필요한 모든 처리를 수행하고, Claude는 최종 출력만 확인합니다.

이 접근 방식의 장점은 극적입니다. 예를 들어 2,000개 이상의 비용 항목을 처리해야 하는 경우를 생각해보겠습니다. 전통적인 방식에서는 각 항목을 읽고 분석하는 과정이 모두 컨텍스트에 기록되어 수만 개의 토큰을 소비합니다. 하지만 프로그래밍 방식에서는 Claude가 루프를 사용하여 모든 항목을 처리하는 스크립트를 작성하고, 최종 합계나 분석 결과만 확인합니다. 2,000개의 중간 결과는 컨텍스트를 전혀 소비하지 않습니다.

Claude for Excel이 바로 이 기능을 활용하는 좋은 예입니다. 수천 행의 스프레드시트를 읽고 수정해야 하는 경우, 모든 행을 컨텍스트에 로드하면 모델의 컨텍스트 윈도우가 과부하됩니다. 하지만 프로그래밍 방식 도구 호출을 사용하면 효율적으로 데이터를 처리하고 필요한 변경을 수행할 수 있습니다.

도구 사용 예시(Tool Use Examples)의 중요성

도구 정의는 일반적으로 JSON Schema를 사용하는데, 이는 데이터 구조를 명확하게 정의하는 데는 탁월하지만 한계가 있습니다. Schema는 필드의 타입, 필수 여부, 허용되는 값 등을 정의할 수 있지만, “언제 선택적 매개변수를 포함해야 하는가”, “어떤 매개변수 조합이 의미가 있는가”, “이 API의 관습은 무엇인가”와 같은 사용 패턴을 표현할 수 없습니다.

도구 사용 예시는 이러한 간극을 메웁니다. 개발자는 도구 정의와 함께 실제 사용 예시를 제공하여 Claude가 도구를 더 효과적으로 사용하도록 안내할 수 있습니다. 이는 API 문서에서 예제 코드를 제공하는 것과 유사한 개념이지만, AI 모델이 이해할 수 있는 형식으로 구조화되어 있습니다. 실제 테스트에서 도구 사용 예시를 제공한 경우 Claude의 도구 호출 정확도가 크게 향상되었으며, 특히 복잡한 API의 경우 그 효과가 더욱 두드러졌습니다.


2. 컨텍스트 윈도우 관리: 한계를 넘어서

AI 에이전트를 구축할 때 직면하는 가장 큰 도전 중 하나는 제한된 컨텍스트 윈도우입니다. 아무리 큰 컨텍스트 윈도우를 제공하더라도, 복잡한 에이전트 작업은 엄청난 양의 정보를 생성하고 처리합니다. Claude API는 이 근본적인 제약을 극복하기 위한 여러 혁신적인 기능을 제공합니다.

모델 컨텍스트 프로토콜(MCP): AI 연결의 표준화

2024년 11월 Anthropic이 오픈소스로 공개한 모델 컨텍스트 프로토콜(MCP)은 AI 에이전트와 외부 시스템을 연결하는 방식을 근본적으로 변화시키고 있습니다. MCP의 개념을 이해하기 위해 1990년대 데이터베이스 연결의 혁명을 먼저 살펴보겠습니다. 그 당시에는 각 애플리케이션이 각 데이터베이스에 연결하기 위해 전용 드라이버와 코드를 작성해야 했습니다. 이는 M×N 문제로 알려져 있었는데, M개의 애플리케이션과 N개의 데이터베이스를 연결하려면 M×N개의 커스텀 통합이 필요했습니다.

ODBC(Open Database Connectivity)의 등장은 이 문제를 해결했습니다. 표준화된 인터페이스를 제공함으로써, 애플리케이션은 한 번만 ODBC를 지원하도록 구현하면 모든 ODBC 호환 데이터베이스에 연결할 수 있게 되었습니다. MCP는 AI 에이전트 영역에서 ODBC와 유사한 역할을 수행합니다. 하지만 MCP가 다루는 범위는 데이터베이스보다 훨씬 광범위합니다. 파일 시스템, 비즈니스 도구, 개발 환경, 클라우드 서비스 등 모든 종류의 데이터 소스와 도구를 포괄합니다.

MCP 이전에는 각 AI 애플리케이션이 각 데이터 소스나 도구에 대한 커스텀 통합을 구축해야 했습니다. OpenAI의 함수 호출 API와 ChatGPT 플러그인 프레임워크가 부분적인 해결책을 제공했지만, 여전히 벤더 종속적이었습니다. MCP는 진정으로 개방적이고 표준화된 프로토콜을 제공하여 이 문제를 해결합니다.

MCP의 설계는 소프트웨어 개발 도구에서 이미 검증된 개념을 차용했습니다. Language Server Protocol(LSP)은 IDE와 언어 서비스 간의 통신을 표준화하여 개발 도구 생태계를 혁신했습니다. MCP는 LSP의 메시지 흐름 개념을 재사용하고, 널리 사용되는 JSON-RPC 2.0 프로토콜을 통해 메시지를 전송합니다. 이는 개발자들에게 친숙한 패턴을 사용하면서도 AI 에이전트의 특수한 요구사항을 충족시킵니다.

MCP의 아키텍처와 작동 방식

MCP는 클라이언트-서버 아키텍처를 사용합니다. MCP 클라이언트는 Claude Desktop, IDE, 또는 커스텀 AI 애플리케이션에 내장되어 있으며, MCP 서버는 실제 데이터 소스나 도구 앞에서 표준화된 인터페이스를 제공합니다. 이러한 분리는 관심사의 분리(separation of concerns) 원칙을 따르며, 각 구성요소가 자신의 역할에 집중할 수 있게 합니다.

클라이언트와 서버 간의 통신은 다섯 가지 핵심 프리미티브를 통해 이루어집니다. 서버 측에서는 프롬프트(Prompts), 리소스(Resources), 도구(Tools)라는 세 가지 프리미티브를 제공합니다. 프롬프트는 특정 작업을 위한 지침이나 템플릿으로, 재사용 가능한 프롬프트 패턴을 정의할 수 있습니다. 리소스는 LLM의 프롬프트 컨텍스트에 포함될 수 있는 구조화된 데이터로, 문서, 데이터베이스 레코드, API 응답 등이 될 수 있습니다. 도구는 실행 가능한 함수로, 정보를 검색하거나 작업을 수행합니다.

클라이언트 측에서는 루트(Roots)와 샘플링(Sampling)이라는 두 가지 프리미티브를 제공합니다. 루트는 파일시스템의 진입점으로, 서버가 클라이언트 측의 파일에 접근할 수 있게 합니다. 이는 로컬 파일을 기반으로 작업하는 개발 도구 에이전트에 특히 유용합니다. 샘플링은 서버가 클라이언트의 LLM에게 추가적인 완성(completion)이나 생성(generation)을 요청할 수 있게 합니다. 이는 에이전트 행동을 중첩된 LLM 호출로 구현할 수 있게 하지만, Anthropic은 항상 사람이 루프에 포함되어 샘플링 요청을 승인하거나 거부할 수 있어야 한다고 권장합니다.

MCP의 실제 구현

Anthropic은 개발자들이 MCP를 빠르게 시작할 수 있도록 인기 있는 엔터프라이즈 시스템을 위한 사전 구축된 MCP 서버를 제공합니다. Google Drive 서버는 문서와 파일에 접근할 수 있게 하고, Slack 서버는 메시지를 검색하고 채널을 관리할 수 있게 합니다. GitHub 서버는 리포지토리의 파일과 이슈를 관리하고, PostgreSQL 서버는 데이터베이스 쿼리를 실행합니다. Puppeteer 서버는 웹 브라우저 자동화와 스크린샷 캡처를 지원합니다.

개발자는 또한 자신만의 MCP 서버를 구축할 수 있습니다. Python이나 TypeScript로 서버를 구현하는 것은 상대적으로 간단합니다. 예를 들어, 날씨 정보를 제공하는 MCP 서버를 만든다고 가정해보겠습니다. 서버는 특정 위치의 날씨 정보를 가져오는 도구를 정의하고, 클라이언트의 요청을 받아 외부 날씨 API를 호출하고, 결과를 표준화된 형식으로 반환합니다. 클라이언트는 이 서버가 어떻게 구현되었는지 알 필요가 없으며, MCP 프로토콜을 통해 투명하게 통신합니다.

API를 통한 MCP 통합의 획기적 개선

2025년 5월, Anthropic은 Claude API에 MCP 커넥터를 도입했습니다. 이는 개발자 경험을 극적으로 개선한 중요한 발전입니다. 이전에는 MCP를 사용하려면 개발자가 MCP 클라이언트 하네스를 직접 구축하고 연결 관리, 도구 발견, 인증, 오류 처리 등을 모두 구현해야 했습니다. 이는 상당한 개발 노력이 필요했고, 진입 장벽이 되었습니다.

MCP 커넥터를 사용하면 개발자는 API 요청에 원격 MCP 서버의 URL만 추가하면 됩니다. API가 나머지 모든 것을 자동으로 처리합니다. Claude가 MCP 서버가 구성된 요청을 받으면, 서버에 연결하고 사용 가능한 도구를 자동으로 발견합니다. 작업을 수행하기 위해 적절한 도구를 결정하고 호출하며, 인증과 오류를 처리하고, 통합된 데이터와 함께 응답을 반환합니다. 이 모든 과정이 개발자의 추가 코드 없이 이루어집니다.

예를 들어, Asana와 통합하는 프로젝트 관리 에이전트를 구축한다고 가정해보겠습니다. 개발자는 API 요청에 Asana MCP 서버의 URL과 OAuth 토큰만 포함시키면 됩니다. Claude는 자동으로 Asana의 작업을 조회하고, 새로운 작업을 생성하고, 작업 상태를 업데이트하는 등의 작업을 수행할 수 있습니다. 복잡한 Asana API를 직접 다룰 필요가 없으며, MCP 서버가 모든 세부사항을 처리합니다.

MCP 생태계의 폭발적 성장

MCP가 2024년 11월에 출시된 이후 채택 속도는 놀라울 정도로 빨랐습니다. 커뮤니티는 수천 개의 MCP 서버를 구축했으며, 이는 다양한 사용 사례와 도메인을 포괄합니다. SDK는 Python, TypeScript, C#, Java를 포함한 모든 주요 프로그래밍 언어에서 사용할 수 있습니다. 이는 개발자가 자신이 선호하는 언어로 MCP 서버를 구축하고 통합할 수 있음을 의미합니다.

주요 개발 도구 회사들도 빠르게 MCP를 채택했습니다. Zed와 Replit 같은 코딩 플랫폼, Codeium과 Sourcegraph 같은 코드 인텔리전스 도구들이 MCP를 통합하여 AI 코딩 어시스턴트에게 실시간 프로젝트 컨텍스트를 제공합니다. Block과 Apollo 같은 기업들은 자사 시스템에 MCP를 통합하여 내부 도구와 AI 에이전트 간의 원활한 통신을 구현했습니다.

가장 주목할 만한 발전은 2025년 3월 OpenAI가 공식적으로 MCP를 채택한 것입니다. OpenAI는 ChatGPT 데스크톱 앱을 포함한 자사 제품 전반에 MCP를 통합하기로 결정했습니다. 이는 MCP가 단순히 Anthropic의 독점 프로토콜이 아니라, 업계 전반의 표준으로 자리잡고 있음을 보여줍니다. Google DeepMind도 MCP에 관심을 표명했으며, 여러 AI 도구 제작사들이 지원을 추가하고 있습니다.

업계 분석가들은 MCP를 OpenAPI에 비유합니다. OpenAPI가 REST API를 설명하는 표준 방식이 되었듯이, MCP는 AI 에이전트와 외부 시스템 간의 연결을 설명하는 표준이 될 잠재력을 가지고 있습니다. The Verge는 MCP가 맥락을 인식하고 다양한 소스에서 안전하게 데이터를 가져올 수 있는 AI 에이전트에 대한 증가하는 수요를 충족시킨다고 보도했습니다.

코드 실행과 MCP의 시너지

MCP의 성공은 동시에 새로운 도전을 만들어냈습니다. 연결되는 MCP 서버가 많아질수록, 도구 정의가 소비하는 컨텍스트 토큰이 급증합니다. 예를 들어, 5개의 MCP 서버에 총 58개의 도구가 있다면, 도구 정의만으로 약 55,000개의 토큰을 소비합니다. 이는 대화가 시작되기도 전에 컨텍스트 윈도우의 상당 부분을 차지하는 것입니다.

Anthropic의 엔지니어들은 이 문제를 해결하기 위해 코드 실행과 MCP를 결합하는 혁신적인 접근법을 개발했습니다. 핵심 아이디어는 모델이 파일시스템을 탐색하는 데 능숙하다는 점을 활용하는 것입니다. 모든 도구 정의를 미리 컨텍스트에 로드하는 대신, 도구를 파일시스템의 코드로 표현합니다. 모델은 필요할 때 관련 도구 정의를 온디맨드로 읽을 수 있습니다.

또 다른 접근법은 search_tools라는 도구를 추가하는 것입니다. 이 도구는 관련 도구 정의를 찾는 데 사용됩니다. 예를 들어, Salesforce와 관련된 작업을 수행해야 하는 경우, 에이전트는 “salesforce”를 검색하여 관련 도구만 로드합니다. detail_level 매개변수를 사용하면 에이전트가 필요한 세부 수준을 선택할 수 있습니다. 이름만 필요한지, 이름과 설명이 필요한지, 아니면 전체 스키마가 필요한지를 지정할 수 있습니다.

코드 실행을 사용하면 에이전트가 도구 결과를 모델에 전달하기 전에 필터링하고 처리할 수 있습니다. 예를 들어, 대용량 데이터베이스를 쿼리하는 경우, 결과를 그대로 반환하는 대신 코드를 실행하여 관련 행만 추출하고 집계할 수 있습니다. 이는 컨텍스트 효율성을 크게 향상시키고, 에이전트가 더 복잡한 작업을 수행할 수 있게 합니다.

메모리: 지속성과 맥락 유지

메모리 기능은 Claude에게 대화 간에 정보를 유지하는 능력을 제공합니다. AI 에이전트의 근본적인 한계 중 하나는 각 대화가 독립적이라는 점입니다. 사용자는 이전에 자신의 선호도나 프로젝트 세부사항을 공유했을 수 있지만, 새로운 대화에서는 이를 다시 설명해야 합니다. 메모리는 이 문제를 해결합니다.

메모리는 에이전트를 위한 클라이언트 측 파일시스템처럼 작동합니다. 중요한 정보는 외부 저장소에 메모리 파일로 저장되며, 필요할 때만 컨텍스트 윈도우로 불러옵니다. 사용자 선호도, 자주 사용하는 코드 패턴, 프로젝트 가이드라인, 도메인 특화 지식 등이 메모리에 저장될 수 있습니다. 에이전트는 작업을 시작할 때 관련 메모리를 로드하고, 작업이 완료되면 새로운 학습 내용을 메모리에 저장합니다.

Claude Opus 4는 메모리 기능에서 특히 뛰어난 능력을 보입니다. 개발자가 로컬 파일 접근 권한을 제공하면, Opus 4는 핵심 정보를 저장하기 위한 메모리 파일을 능숙하게 생성하고 유지관리합니다. 흥미로운 예시로, Anthropic은 Opus 4가 포켓몬 레드를 플레이하면서 “내비게이션 가이드”라는 메모리 파일을 생성한 것을 발견했습니다. 이 가이드에는 게임 맵의 중요한 위치, 이미 탐험한 지역, 다음에 방문해야 할 곳 등의 정보가 포함되어 있었습니다. 에이전트는 스스로 필요한 정보를 식별하고 체계적으로 관리했습니다.

메모리는 장기적인 작업 인식, 일관성, 그리고 에이전트 작업의 성능을 크게 향상시킵니다. 며칠 또는 몇 주에 걸쳐 진행되는 프로젝트에서, 에이전트는 이전 결정과 학습 내용을 기억하고 이를 바탕으로 더 나은 결정을 내릴 수 있습니다. 이는 AI 에이전트가 단순한 도구에서 실제 협력자로 진화하는 데 중요한 단계입니다.

컨텍스트 편집: 불필요한 정보의 제거

컨텍스트 편집은 컨텍스트 윈도우 관리의 또 다른 중요한 측면입니다. 에이전트가 작업을 수행하면서 많은 중간 결과가 생성됩니다. 도구 호출의 결과는 종종 길고 복잡한 JSON 출력을 포함하며, 이는 작업이 성공적으로 완료된 후에는 더 이상 필요하지 않을 수 있습니다. 예를 들어, 데이터베이스 쿼리가 성공했고 필요한 정보를 추출했다면, 원본 쿼리 결과의 모든 세부사항을 컨텍스트에 유지할 필요가 없습니다.

컨텍스트 편집 기능을 사용하면 이러한 불필요한 정보를 제거하여 컨텍스트 공간을 확보할 수 있습니다. Anthropic의 내부 벤치마크에서 컨텍스트 편집은 39%의 성능 향상을 가져왔습니다. 이는 단순히 더 많은 작업을 수행할 수 있다는 것뿐만 아니라, 응답 속도가 빨라지고 비용이 절감된다는 것을 의미합니다. 에이전트는 관련 없는 정보에 주의를 분산시키지 않고 현재 작업에 집중할 수 있습니다.

컨텍스트 편집은 자동으로 또는 수동으로 수행될 수 있습니다. Claude API는 컨텍스트 한계에 가까워지면 자동으로 덜 관련성 있는 도구 호출과 결과를 정리하는 기능을 제공합니다. 개발자는 또한 명시적으로 특정 메시지나 도구 결과를 컨텍스트에서 제거할 수 있습니다. 이러한 유연성은 다양한 사용 사례와 성능 요구사항을 충족시킵니다.

프롬프트 캐싱: 반복 작업의 효율화

프롬프트 캐싱은 컨텍스트 관리의 또 다른 혁신입니다. 많은 에이전트 작업에서 동일한 시스템 프롬프트, 도구 정의, 또는 문서가 여러 요청에 걸쳐 반복적으로 사용됩니다. 전통적으로는 각 요청마다 이러한 정보를 다시 처리해야 했는데, 이는 비효율적이고 비용이 많이 듭니다.

프롬프트 캐싱을 사용하면 자주 사용되는 프롬프트 구성요소를 캐시하고 재사용할 수 있습니다. Claude API는 최대 1시간 동안 프롬프트를 캐시할 수 있으며, 캐시된 내용을 사용하면 지연 시간이 최대 80%, 비용이 최대 90% 감소합니다. 이는 특히 대화형 에이전트나 반복적인 작업을 수행하는 에이전트에 큰 이점을 제공합니다.


3. 인프라 제공: Claude에게 컴퓨터 제공하기

AI 에이전트가 단순한 텍스트 생성을 넘어 실제 작업을 수행하려면 실행 환경이 필요합니다. Anthropic은 Claude에게 안전하고 강력한 실행 인프라를 제공하여 진정한 의미의 에이전트 능력을 실현합니다.

코드 실행 도구: 안전한 샌드박스 환경

코드 실행 도구는 Claude가 안전하게 격리된 샌드박스 환경에서 코드를 작성하고 실행할 수 있게 합니다. 이는 AI 에이전트 기능의 근본적인 확장입니다. Claude는 더 이상 코드를 제안하는 것에 그치지 않고, 실제로 코드를 실행하고 결과를 확인하고 필요한 경우 수정할 수 있습니다.

코드 실행 도구는 2024년 5월에 처음 출시되었을 때는 Python만 지원했습니다. 하지만 2025년 8월에 출시된 버전 2는 Bash 명령 실행과 직접적인 파일 조작 기능을 추가했습니다. 이는 Claude가 여러 프로그래밍 언어로 코드를 작성할 수 있게 하고, 시스템 작업을 수행하고, 패키지를 관리할 수 있게 합니다. 기존의 모든 Python 코드 실행은 정확히 이전과 같이 작동하며, 가격 차이도 없습니다.

샌드박스 환경은 보안과 격리를 보장합니다. Claude가 작성하고 실행하는 코드는 격리된 컨테이너에서 실행되므로, 호스트 시스템이나 다른 사용자의 환경에 영향을 미칠 수 없습니다. Anthropic이 컨테이너 오케스트레이션, 세션 유지, 보안 등 복잡한 인프라 문제를 모두 처리하므로, 개발자는 이러한 세부사항을 걱정할 필요가 없습니다.

코드 실행 도구를 사용하면 Claude는 다양한 작업을 수행할 수 있습니다. 데이터 분석을 위해 통계를 계산하고, 시각화를 생성하고, 복잡한 계산을 수행할 수 있습니다. 파일 작업을 통해 Excel 스프레드시트, PowerPoint 프레젠테이션, Word 문서를 생성하고 편집할 수 있습니다. 시스템 명령을 실행하여 패키지를 설치하고 환경을 설정할 수 있습니다. 업로드된 파일을 직접 처리하고 분석할 수 있습니다.

실제로 Claude.ai와 데스크톱 앱의 파일 생성 기능은 전적으로 코드 실행에 의존합니다. 사용자가 스프레드시트나 프레젠테이션을 요청하면, Claude는 이를 생성하는 Python 스크립트를 작성하고 실행합니다. 이는 일관된 서식과 복잡한 기능을 보장하며, 다른 방식으로는 달성하기 어려운 품질을 제공합니다.

코드 실행의 가격 모델과 사용량

코드 실행 도구 사용은 토큰 사용과 별도로 추적됩니다. 실행 시간은 최소 5분이며, 요청에 파일이 포함된 경우 파일이 컨테이너에 미리 로드되므로 도구가 실제로 사용되지 않더라도 실행 시간이 청구됩니다. 각 조직은 코드 실행 도구로 하루에 50시간의 무료 사용량을 받습니다. 처음 50시간을 초과하는 추가 사용은 컨테이너당 시간당 0.05달러로 청구됩니다.

이 가격 모델은 대부분의 개발 및 테스트 사용 사례에 매우 관대합니다. 하루 50시간은 상당한 양의 코드 실행을 허용하며, 추가 요금도 합리적입니다. 프로덕션 애플리케이션의 경우, 개발자는 코드 실행 사용을 최적화하여 비용을 관리할 수 있습니다.

에이전트 스킬: 전문화된 능력의 모듈화

에이전트 스킬은 Claude의 기능을 확장하는 모듈식 능력입니다. 스킬은 지침, 스크립트, 리소스로 구성되어 있으며, Claude가 특정 도메인이나 작업 유형에서 더 나은 성능을 발휘하도록 돕습니다. 스킬의 개념은 인간 전문가가 도메인 지식과 최선의 실천 방법을 습득하는 것과 유사합니다.

Anthropic은 고품질의 공개 스킬을 제공합니다. 예를 들어, DOCX 스킬은 Word 문서를 생성하고 편집하는 포괄적인 기능을 제공합니다. 이 스킬에는 추적된 변경사항 처리, 댓글 추가, 서식 보존, 텍스트 추출 등의 모범 사례가 포함되어 있습니다. PPTX 스킬은 프레젠테이션 생성과 편집을 지원하고, XLSX 스킬은 스프레드시트 작업을 위한 수식과 서식 처리를 제공합니다. PDF 스킬은 텍스트와 테이블 추출, PDF 생성, 문서 병합 및 분할, 양식 처리를 지원합니다.

개발자는 또한 자신만의 커스텀 스킬을 생성할 수 있습니다. Skills API를 통해 스킬을 업로드하면, Claude는 이를 샌드박스 환경에서 사용할 수 있습니다. 커스텀 스킬은 조직의 특정 워크플로우, 도메인 전문 지식, 코딩 표준을 캡슐화할 수 있습니다. 예를 들어, 금융 회사는 규제 준수 검사를 수행하는 스킬을 만들 수 있고, 디자인 회사는 특정 브랜드 가이드라인을 따르는 UI 컴포넌트를 생성하는 스킬을 만들 수 있습니다.

스킬은 프로그레시브 컨텍스트 로딩(Progressive Context Loading)을 사용하여 효율적으로 관리됩니다. 처음에는 스킬의 메타데이터만 로드되고, Claude가 특정 스킬을 사용하기로 결정하면 전체 내용이 온디맨드로 로드됩니다. 이를 통해 수십 개의 스킬을 사용할 수 있으면서도 컨텍스트 한계에 도달하지 않습니다.

Claude Code와 Claude Agent SDK

Claude Code는 Anthropic이 내부 개발자 생산성을 지원하기 위해 구축한 에이전트형 코딩 솔루션으로 시작했습니다. 하지만 몇 개월 만에 코딩 도구를 훨씬 넘어선 범용 에이전트 플랫폼으로 진화했습니다. Anthropic 내부에서 Claude Code는 심층 연구, 비디오 생성, 노트 작성 등 수많은 비코딩 애플리케이션에 사용되고 있으며, 거의 모든 주요 에이전트 루프를 구동하고 있습니다.

이러한 광범위한 용도를 반영하여, Anthropic은 Claude Code SDK를 Claude Agent SDK로 이름을 변경했습니다. Claude Agent SDK는 개발자가 Claude Code 위에 강력한 에이전트를 구축할 수 있도록 돕는 도구 모음입니다. SDK의 핵심 설계 원칙은 에이전트에게 컴퓨터를 제공하여 인간처럼 작업할 수 있게 하는 것입니다.

Claude Agent SDK는 에이전트가 일반적으로 작동하는 피드백 루프를 지원합니다. 컨텍스트 수집, 조치 수행, 작업 검증, 반복의 사이클입니다. SDK는 각 단계를 지원하는 기본 요소를 제공합니다. 컨텍스트 수집을 위해 파일시스템 검색, MCP 서버 통합, 메모리 관리를 제공합니다. 조치 수행을 위해 도구, 코드 실행, 파일 조작을 제공합니다. 작업 검증을 위해 테스트 실행, 결과 확인, 오류 감지를 제공합니다.

SDK의 자동 컴팩트 기능은 컨텍스트 한계에 접근할 때 이전 메시지를 자동으로 요약하여 에이전트가 컨텍스트 부족으로 중단되지 않도록 합니다. 이는 장시간 실행되는 에이전트에 특히 유용합니다. 개발자는 이제 단순한 코딩 도구가 아니라 금융 에이전트, 고객 지원 에이전트, 심층 연구 에이전트, 개인 비서 에이전트 등 다양한 유형의 자율 에이전트를 구축할 수 있습니다.

Claude Code는 2025년 5월에 정식 출시되었으며, GitHub Actions를 통한 백그라운드 작업과 VS Code 및 JetBrains와의 네이티브 통합을 지원합니다. 편집 내용이 파일에 직접 표시되어 원활한 페어 프로그래밍 경험을 제공합니다.


4. 실제 구현 사례와 모범 실천 방법

성공적인 에이전트 구축 사례

여러 조직과 기업들이 Claude API를 사용하여 인상적인 에이전트를 구축했습니다. Block은 MCP를 활용하여 기계적 작업의 부담을 제거하고 사람들이 창의적인 작업에 집중할 수 있도록 하는 에이전트 시스템을 구축했습니다. Apollo는 MCP를 시스템에 통합하여 복잡한 데이터 워크플로우를 자동화했습니다.

Canva는 Claude Sonnet 4.5를 사용하여 제품 기능을 향상시켰습니다. 2억 4천만 명 이상의 사용자가 사용하는 플랫폼에서 긴 컨텍스트 작업의 처리 효율성이 크게 개선되었으며, 프롬프트와 반복이 더 쉬워졌다고 보고했습니다. Figma Make는 초기 테스트에서 Claude Sonnet 4.5를 통해 눈에 띄게 개선되었으며, 팀들이 더 기능적인 프로토타입과 부드러운 상호작용으로 아이디어를 탐색하고 검증할 수 있게 되었습니다.

Devin은 Claude Sonnet 4.5를 도입한 후 계획 성능이 18%, 종단간 평가 점수가 12% 향상되었다고 보고했습니다. 이는 Claude Sonnet 3.6 출시 이후 가장 큰 도약이었습니다. Cursor는 Opus 4를 코딩에서 최첨단 수준이라고 평가하며, 복잡한 코드베이스 이해에서 비약적인 발전을 이뤘다고 언급했습니다.

에이전트 디자인 원칙

성공적인 에이전트를 구축하려면 몇 가지 핵심 원칙을 따라야 합니다. 첫째, 에이전트의 도구는 신중하게 설계되어야 합니다. 도구는 컨텍스트 윈도우에서 눈에 띄게 표시되므로, Claude가 작업을 완료하기 위해 고려할 주요 조치가 됩니다. 따라서 도구는 에이전트가 수행하길 원하는 주요 작업을 반영해야 합니다. 너무 많은 도구는 Claude를 혼란스럽게 할 수 있고, 너무 적은 도구는 유연성을 제한합니다.

둘째, 에이전트가 작업을 잘못 이해한다면 핵심 정보가 누락되었을 가능성이 있습니다. 검색 API의 구조를 변경하여 필요한 정보를 더 쉽게 찾을 수 있도록 하는 것을 고려해야 합니다. 셋째, 에이전트가 작업에 반복적으로 실패한다면, 도구 호출에 공식적인 규칙을 추가하여 실패를 식별하고 수정할 수 있습니다.

넷째, 에이전트가 오류를 수정할 수 없다면, 문제에 다르게 접근할 수 있는 더 유용하거나 창의적인 도구를 제공하는 것을 고려해야 합니다. 다섯째, 기능을 추가할 때마다 에이전트의 성능이 달라진다면, 고객 사용을 기반으로 대표적인 테스트 세트를 구축하여 프로그래밍 방식 평가(evals)를 수행해야 합니다.

보안과 프라이버시 고려사항

에이전트를 구축할 때 보안은 최우선 고려사항이어야 합니다. MCP는 로컬 우선 연결에 중점을 두어 프라이버시와 보안을 강조합니다. 도구당, 상호작용당 명시적인 권한이 필요하므로 개발자는 모델이 접근할 수 있는 데이터에 대한 엄격한 제어를 유지합니다. 이 로컬 우선 접근 방식은 소규모 데스크톱 중심 환경에 이상적이며, 주요 보안 문제 없이 개발자가 실험할 수 있게 합니다.

하지만 2025년 4월 보안 연구자들은 MCP에 여러 미해결 보안 문제가 있다고 발표했습니다. 프롬프트 인젝션, 도구 조합 시 파일 유출 가능성, 유사 도구가 신뢰할 수 있는 도구를 몰래 대체할 수 있는 문제 등이 포함됩니다. Anthropic과 커뮤니티는 이러한 문제를 해결하기 위해 적극적으로 노력하고 있습니다.

코드 실행 도구는 샌드박스 환경에서 실행되어 호스트 시스템을 보호하지만, 개발자는 여전히 에이전트가 실행하는 코드를 모니터링해야 합니다. 특히 사용자 입력을 기반으로 코드를 생성하는 경우, 악의적인 입력이 의도하지 않은 동작을 초래할 수 있습니다.


5. 미래 전망과 발전 방향

자율성의 증가

Anthropic CEO Dario Amodei는 업계가 에이전트를 배치하여 작업을 수행하고 모델이 전반적으로 더 자율적이 되는 세상으로 향하고 있다고 말했습니다. 그는 인간 개발자가 에이전트 플릿을 관리할 수 있는 세상을 예상하지만, 품질 관리와 에이전트가 올바른 작업을 수행하고 세부사항을 정확하게 처리하도록 하기 위해 지속적인 인간 참여가 중요할 것이라고 강조했습니다.

자율 모델과 에이전트의 사용 사례는 소프트웨어 개발, 사이버 보안, 과학 연구, 생의학 분야에 있을 것으로 예상됩니다. Amodei는 MCP가 실제 데이터와 장비에 연결될 가능성도 언급했습니다. 이는 AI 에이전트가 디지털 세계를 넘어 물리적 세계와 상호작용할 수 있는 미래를 암시합니다.

엔터프라이즈 준비성

MCP가 엔터프라이즈 환경에서 널리 채택되려면 여러 도전 과제를 극복해야 합니다. 확장성과 분산 기능에 대한 요구는 로컬 우선 아키텍처에 잠재적인 장벽을 만듭니다. 높은 처리량 작업이 필요한 클라우드 네이티브 환경에 MCP를 배포하는 것은 복잡할 수 있습니다. Anthropic의 엔지니어링 팀은 원격 연결을 지원하도록 MCP를 확장하는 작업을 적극적으로 진행하고 있지만, 이는 보안, 배포, 인증에 복잡성을 추가합니다.

거버넌스와 규정 준수도 중요한 고려사항입니다. 엔터프라이즈는 데이터 접근, 감사 로그, 규정 준수 보고에 대한 세밀한 제어가 필요합니다. MCP 생태계는 이러한 요구사항을 충족하는 표준과 도구를 개발해야 합니다.

생태계의 성장

MCP 생태계는 빠르게 성장하고 있으며, 커뮤니티가 구축한 수천 개의 서버가 다양한 사용 사례를 다룹니다. Docker는 MCP 서버를 컨테이너화하여 배포를 단순화하는 데 Anthropic과 협력했습니다. Docker Hub의 MCP 네임스페이스에서 참조 서버의 Docker 이미지를 사용할 수 있습니다. 이는 복잡한 환경 설정 문제를 해결하고 여러 아키텍처와 운영 체제에서 일관성을 보장합니다.

개발자들은 MCP를 “AI를 위한 ODBC” 또는 “AI를 위한 USB-C”로 부르며, 이는 표준화가 가져오는 가치를 강조합니다. 업계 분석가들은 MCP가 개발자 경험에 집중하여 성능보다는 사용 편의성에 우선순위를 두었다고 평가합니다. 이는 초기 채택과 생태계 구축에 현명한 전략입니다.

Claude 4.5 모델의 지속적인 개선

Claude Sonnet 4.5는 Claude 4.5 모델 패밀리에서 가장 최근에 출시된 모델로, 컴퓨터 사용 능력에서 상당한 도약을 보였습니다. OSWorld 벤치마크에서 61.4%의 점수는 불과 몇 달 전 Sonnet 4의 42.2%를 크게 뛰어넘는 것입니다. Claude for Chrome 확장 프로그램은 이러한 향상된 기능을 활용하여 브라우저에서 직접 작업하고, 사이트를 탐색하고, 스프레드시트를 채우고, 작업을 완료합니다.

Claude Sonnet 4.5는 또한 병렬 도구 실행을 통해 컨텍스트 윈도우당 작업을 최대화하는 데 놀라울 정도로 효율적입니다. 예를 들어 여러 bash 명령을 한 번에 실행하여 작업 속도를 크게 높입니다. 이러한 개선사항들은 AI 에이전트가 더 복잡하고 실제적인 작업을 수행할 수 있게 만듭니다.

윤리적 고려사항과 인간 중심 설계

AI 에이전트가 더 강력해지고 자율적이 될수록, 윤리적 고려사항이 더욱 중요해집니다. Anthropic은 항상 인간이 루프에 포함되어야 한다고 강조합니다. 특히 MCP의 샘플링 기능과 같이 AI가 다른 AI를 호출할 수 있는 경우, 인간이 이러한 요청을 승인하거나 거부할 수 있는 능력을 유지해야 합니다.

Claude 4 모델들은 작업을 완료하기 위해 지름길이나 허점을 사용하는 행동이 65% 감소했습니다. 이는 단순히 작업을 완료하는 것이 아니라 올바른 방식으로 완료하는 것의 중요성을 반영합니다. AI 에이전트는 규칙의 정신과 문자를 모두 따라야 하며, 의도된 결과를 달성하기 위해 부적절한 방법을 사용해서는 안 됩니다.


결론

Claude API의 진화는 AI 에이전트 기술의 미래를 보여줍니다. 확장된 사고를 통한 깊이 있는 추론, MCP를 통한 표준화된 연결, 코드 실행을 통한 실제 작업 수행 능력은 AI 에이전트가 단순한 챗봇에서 진정한 협력자로 발전하고 있음을 보여줍니다.

Anthropic은 세 가지 핵심 영역에서 지속적으로 혁신하고 있습니다. Claude의 기본 능력은 더욱 강력해지고 있으며, 컨텍스트 관리는 더욱 효율적이고 유연해지고 있으며, 실행 인프라는 더욱 안전하고 강력해지고 있습니다. 이러한 발전은 개발자들이 이전에는 불가능했던 애플리케이션을 구축할 수 있게 합니다.

MCP의 빠른 채택과 OpenAI를 포함한 주요 업체들의 지원은 표준화가 AI 에이전트 생태계에 얼마나 중요한지를 보여줍니다. 개발자들은 더 이상 각 통합을 처음부터 구축할 필요가 없으며, 성장하는 MCP 서버 생태계를 활용할 수 있습니다.

앞으로 AI 에이전트는 더욱 자율적이고 능력 있게 될 것입니다. 하지만 Amodei가 강조했듯이, 인간의 감독과 참여는 계속해서 중요할 것입니다. AI 에이전트는 인간을 대체하는 것이 아니라 인간의 능력을 증강시키고, 기계적 작업의 부담을 제거하여 사람들이 더 창의적이고 의미 있는 작업에 집중할 수 있게 합니다.

개발자들은 이제 Claude API와 관련 도구들을 사용하여 소프트웨어 개발, 고객 지원, 연구, 데이터 분석, 비즈니스 자동화 등 다양한 분야에서 강력한 AI 에이전트를 구축할 수 있습니다. 이러한 에이전트들은 복잡한 작업을 수행하고, 장시간 집중력을 유지하고, 다양한 도구와 시스템을 통합하고, 실제 결과를 생성할 수 있습니다.

Claude API의 진화는 계속될 것이며, 새로운 기능과 개선사항이 지속적으로 추가될 것입니다. 개발자 커뮤니티의 피드백과 기여는 이러한 발전을 이끄는 중요한 동력입니다. AI 에이전트의 미래는 밝으며, Claude API는 그 미래를 구축하기 위한 강력한 기반을 제공합니다.


작성 일시: 2025-12-07 23:14:32 (한국시간 기준)

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.