세일즈포스의 AI 에이전트 전략 대전환: LLM 의존도 축소와 결정론적 자동화 도입
목차
- 핵심 요약: 무엇이 변화했는가
- 위기의 서막: 세일즈포스의 고백
- 문제의 본질: 왜 LLM만으로는 부족한가
- AI 환각의 실체: 업계 전반의 위기
- 세일즈포스의 해법: 하이브리드 추론 아키텍처
- 비즈니스 영향: 숫자로 보는 변화
- 업계 반응과 논쟁: 퇴보인가, 진화인가
- 경쟁사들의 대응: 마이크로소프트의 전략
- 산업적 의미: AI 에이전트의 현실화
- 기술적 함의: AI 개발의 새로운 방향
- 미래 전망: 성숙기로 접어드는 AI 에이전트
- 결론: 현실적 AI의 시대로
핵심 요약: 무엇이 변화했는가
2024년 12월, 세계 최대 CRM 기업이자 AI 에이전트 도입에 가장 적극적이었던 세일즈포스가 놀라운 전략 전환을 발표했다. 대형언어모델(LLM)의 확률적 특성에 한계를 느끼고 ‘결정론적(deterministic) 자동화 방식’으로 전환하고 있다는 것이다. 이는 단순한 기술적 조정이 아니라, AI 산업 전체에 중요한 경고 신호를 보내는 패러다임 전환이다.
산즈나 파룰레카르(Sandhya Parulekar) 세일즈포스 마케팅 담당 수석 부사장은 디 인포메이션과의 인터뷰에서 “AI 에이전트의 신뢰성을 향상하기 위해 결정론적 자동화 방식을 사용하고 있다”며 “1년 전만 해도 우리는 모두 LLM을 더 많이 신뢰했었다”고 솔직하게 밝혔다. 이 한 문장은 AI 업계가 지난 1년간 어떤 여정을 거쳐왔는지를 압축적으로 보여준다.
세일즈포스의 전략 변화는 다음과 같은 핵심 요소들을 포함한다:
LLM 의존도 축소: 모든 업무를 LLM의 추론에 의존하는 것이 아니라, 미리 정의된 지침에 따라 모델 출력을 조절한다. 특히 정형화된 업무에서는 LLM 사용을 최소화한다.
결정론적 워크플로우 도입: ‘if this, then that’과 같은 조건부 명령 구조를 LLM에 부여하여, 동일한 입력에 대해 항상 동일한 출력을 보장한다.
하이브리드 추론 아키텍처: LLM의 지능을 완전히 포기하는 것이 아니라, ‘Atlas Reasoning Engine’과 ‘에이전트 그래프(Agent Graph)’를 통해 LLM의 창의성과 규칙 기반 시스템의 안정성을 결합한다.
에이전트포스 스크립트(Agentforce Script): LLM의 판단을 사용하지 않고도 작업을 처리할 수 있는 시점을 파악하는 새로운 시스템으로, “LLM의 본질적인 무작위성을 제거해 핵심 비즈니스 워크플로우가 매번 정확히 동일한 단계를 따르도록 보장”한다.
이러한 변화는 세일즈포스만의 문제가 아니다. AI 에이전트를 기업 환경에 적용하려는 모든 조직이 직면한 근본적인 과제를 드러낸 것이다.
위기의 서막: 세일즈포스의 고백
4,000명 해고와 주가 34% 폭락
세일즈포스의 전략 전환은 단순한 기술적 조정이 아니라 실존적 위기에 대한 대응이었다. 2025년 초, 세일즈포스는 약 4,000명의 직원을 해고했다. 이는 전체 직원의 상당 부분에 해당하며, 특히 고객 지원 인력을 9,000명에서 5,000명으로 줄인 것이 주목할 만하다.
당시 경영진은 에이전트포스(Agentforce)가 고객 상호작용의 거의 절반을 처리할 수 있을 것으로 예상했다. AI가 부피(volume)를 처리할 수 있지만, 복잡하고 중요한 시나리오에서는 여전히 어려움을 겪는다는 사실을 나중에 인정했다. 이는 AI 도입의 낙관적 전망과 현실 사이의 간극을 보여주는 대표적 사례다.
더 충격적인 것은 재무적 타격이었다. 세일즈포스의 주가는 2024년 12월 피크 이후 34% 폭락했다. 이는 LLM에 대한 과도한 신뢰와 그로 인한 ‘환각(hallucination)’ 문제가 시장의 신뢰를 심각하게 훼손했음을 보여준다.
경영진의 솔직한 반성
세일즈포스 경영진의 솔직한 고백은 업계 전체에 경종을 울렸다:
무라리다 크리시나파사드(Muralida Krishnaprasad) CTO: “반드시 정확한 답을 얻어야 하는 부분도 있는데, LLM이 쓸데없이 긴 추론으로 토큰을 낭비하는 것은 문제다. 이는 LLM 비용을 절감하는 방법이기도 하지만, 더 중요한 것은 정확한 답을 얻을 수 있도록 보장하는 것이다.”
실제로 세일즈포스 챗봇이 너무 많은 토큰을 사용하여 상담 건당 2달러 이상이 소요됐다는 불만이 접수되었다. 간단한 질문에도 LLM이 복잡한 추론을 거치면서 불필요하게 많은 토큰을 소비한 것이다.
필 무이(Phil Mui) 세일즈포스 AI 연구소 수석 부사장은 블로그를 통해 “기업에서 필수적인 신뢰성과 제어력을 확보하기 위해, LLM의 출력에 미리 정의된 지침을 부여하는 결정론적 워크플로우를 결합한다”는 새로운 접근 방식을 제시했다.
문제의 본질: 왜 LLM만으로는 부족한가
확률성 vs 결정론: 기업이 요구하는 것
LLM의 가장 큰 특징이자 한계는 바로 ‘확률적 작동 방식’이다. 같은 질문을 해도 매번 조금씩 다른 답변이 나온다. 이는 AI의 창의성과 유연성을 가능하게 하는 특성이지만, 기업 운영 환경에서는 치명적인 약점이 된다.
기업은 입력값이 같으면 결과도 항상 동일해야 한다. 예를 들어 고객이 환불을 요청했을 때, 동일한 조건이라면 항상 동일한 프로세스로 처리되어야 한다. 오늘은 3일 내 환불, 내일은 5일 내 환불이라는 식의 불확실성은 용납될 수 없다. 이것이 바로 ‘결정론적(deterministic)’ 시스템이 필요한 이유다.
구글 클라우드의 마이클 클라크(Michael Clark) 책임자는 이 문제를 명확히 지적했다. 기업이 에이전트를 도입하려면:
- LLM의 출력을 검증하고 오류를 수정하거나
- 여러 모델이 답을 교차 검증하거나
- 에이전트가 문제를 일으키면 인간이 모니터링하고 개입할 수 있어야 한다
이는 단순히 LLM을 배포하는 것만으로는 부족하며, 포괄적인 거버넌스 체계가 필요함을 의미한다.
실제 사례: 비빈트의 교훈
보안 카메라 및 가정용 모니터링 서비스 전문 기업 비빈트(Vivint)의 사례는 LLM의 불확실성 문제를 생생하게 보여준다. 비빈트는 250만 명의 고객 지원을 위해 에이전트포스를 도입했다.
문제 상황: 모든 고객 상담이 끝난 후 만족도 설문조사를 발송하도록 명확히 지시했지만, 알 수 없는 이유로 설문조사가 발송되지 않는 경우가 발생했다.
원인 분석: ‘AI Drift’ 현상이었다. AI가 주제와 관계없는 질문을 받으면 원래 목표를 잃고 ‘방황’하는 것이다. 예를 들어, 고객이 “오늘 날씨가 어때요?”라고 물으면, AI는 날씨에 대해 답변하면서 설문조사 발송이라는 본래의 작업을 잊어버린다.
해결 방법: 세일즈포스와 협력하여 ‘확정적 트리거(deterministic trigger)’를 설정했다. 이는 대화 내용과 무관하게, 상담이 종료되면 무조건 설문조사를 발송하도록 하는 규칙 기반 시스템이다.
이 사례는 중요한 교훈을 준다. 비즈니스에 필수적인 작업은 LLM의 ‘판단’에 맡겨서는 안 되며, 명확한 규칙으로 보장해야 한다는 것이다.
비용 문제: 불필요한 토큰 소비
LLM의 확률적 특성은 단순히 불확실성만 야기하는 것이 아니라 비용 문제로도 직결된다.
세일즈포스의 경험:
- 간단한 FAQ에도 LLM이 복잡한 추론 과정을 거치면서 토큰을 과다 소비
- 상담 건당 2달러 이상의 비용 발생
- 고객사들의 비용 불만 접수
크리시나파사드 CTO는 “LLM에 ‘if this, then that’과 같은 조건을 붙이면 운영 비용도 낮아진다”고 설명했다. 예를 들어:
LLM 방식: “환불 요청을 받았습니다. 이 고객의 구매 이력, 환불 정책, 특별 조건 등을 종합적으로 고려하여…” (100+ 토큰 사용)
결정론적 방식: “환불 조건 충족: YES → 환불 처리” (10 토큰 미만)
이러한 차이가 수십만 건의 상담에 누적되면 엄청난 비용 차이를 만든다.
AI 환각의 실체: 업계 전반의 위기
충격적인 통계: 환각률 급증
2024년~2025년 동안 AI 환각 문제는 개선되기는커녕 오히려 악화되었다. 여러 독립적인 연구 결과가 이를 뒷받침한다:
NewsGuard 2025 보고서:
- AI 환각률이 2024년 8월 18%에서 2025년 8월 35%로 거의 두 배 증가
- 최신 모델일수록 환각률이 더 높은 역설적 현상
- OpenAI의 o3 모델: 33% 환각률
- OpenAI의 o4-mini: 48% 환각률
- 이전 o1 모델: 16% 환각률 (더 나은 성능)
Deloitte 2024 조사:
- 기업 AI 사용자의 47%가 환각된 콘텐츠를 기반으로 최소 한 번 이상 주요 비즈니스 의사결정을 내렸다고 인정
- 이는 거의 절반의 기업이 잘못된 AI 출력에 의존했다는 의미
2025년 1분기 통계:
- 12,842개의 AI 생성 기사가 환각 콘텐츠로 인해 온라인 플랫폼에서 제거됨
- 이는 분기 기준으로 전례 없는 수치
고객 서비스 분야:
- AI 고객 서비스 봇의 39%가 환각 관련 오류로 2024년에 철회되거나 재작업됨
- 법률 분야: AI 도구 사용 변호사들이 환각된 판례를 인용하여 법원에서 벌금 부과
- 의료 분야: AI 건강 조언의 20% 이상이 후속 검증에서 오류로 판명
기업 대응:
- 76%의 기업이 현재 human-in-the-loop 프로세스를 도입하여 환각 포착 시도
- 하지만 이는 AI 자동화의 효율성 이점을 크게 감소시킴
왜 최신 모델이 더 많이 환각하는가
OpenAI의 연구 논문은 이 역설적 현상의 원인을 설명한다:
평가 방식의 문제: 대부분의 벤치마크가 ‘정확도(accuracy)’만 측정하고 ‘오류율(error rate)’은 간과한다. 이는 AI 모델에게 잘못된 인센티브를 제공한다.
비유: 객관식 시험에서 답을 모를 때:
- 추측: 1/4 확률로 정답 (25% 정확도)
- “모른다”고 답변: 0% 정확도
리더보드에서는 추측한 모델이 더 높은 점수를 받는다. 따라서 최신 모델들은 불확실할 때도 추측하도록 학습된다.
의도적 설계: 많은 최신 플랫폼이 “더 도움이 되고 대화적”으로 보이기 위해 가드레일을 줄였다. 하지만 이는 그럴듯하지만 부정확한 응답을 생성할 위험을 증가시킨다.
복잡한 추론의 함정: ‘Chain of Thought’ 등 복잡한 추론 과정을 보여주는 모델들(o3, DeepSeek-R1 등)이 오히려 더 높은 환각률을 보인다. 추론 단계가 많을수록 오류가 누적될 기회도 증가하기 때문이다.
실제 피해 사례
에어 캐나다 사건 (2024년 말):
- AI 챗봇이 존재하지 않는 “사별 할인 요금(bereavement fare)” 정책을 자신 있게 안내
- 캐나다 법원이 에어 캐나다에게 할인 적용 판결
- 회사는 손해배상과 함께 며칠간 언론의 비난에 직면
금융 규제 환각 (2024년 이후):
- AI 컴플라이언스 에이전트가 실제 존재하지 않는 북한 제재 위반 사례를 생성
- 설득력 있는 OFAC ID와 상세한 배경 스토리 포함
- 정상적인 거래를 동결시키고, 필수적인 규제 공시를 촉발
- 감사관들에게 가상의 시나리오를 설명해야 하는 상황 발생
조달 및 공급망 환각:
- AI 조달 봇이 로고, 결제 조건, 소급 날짜가 포함된 상세한 30페이지 계약서 생성
- 그러나 공급업체는 그 계약에 대해 전혀 모르는 상태
- 무단 지출 위험과 잠재적 사기 조사로 이어짐
세일즈포스의 해법: 하이브리드 추론 아키텍처
Atlas Reasoning Engine과 에이전트 그래프
세일즈포스의 해법은 LLM을 완전히 포기하는 것이 아니라, 선택적이고 통제된 방식으로 활용하는 것이다. 이를 위해 개발한 핵심 기술이 ‘Atlas Reasoning Engine’과 ‘에이전트 그래프(Agent Graph)’다.
Atlas Reasoning Engine의 특징:
- 기업 데이터를 지능적 행동으로 변환하는 추론 엔진
- LLM의 출력을 검증하고 필터링
- 환각 감지 및 차단 메커니즘 내장
- 기업 정책 및 컴플라이언스 규칙 자동 적용
에이전트 그래프의 역할:
- 디자인 타임에 에이전트의 행동 경로를 시각적으로 정의
- “이 상황에서는 LLM 사용, 저 상황에서는 규칙 기반” 식의 하이브리드 로직 구현
- 각 노드마다 신뢰도 임계값 설정 가능
- 불확실성이 높은 경우 자동으로 인간 개입 요청
Agent Script: 새로운 스크립팅 언어
세일즈포스는 ‘Agent Script’라는 새로운 스크립팅 언어를 개발했다. 이는 현재 테스트 단계에 있으며, 에이전트의 행동을 정밀하게 제어하기 위한 도구다.
Agent Script의 핵심 기능:
인간 가독성: 사람이 읽을 수 있는 표현 언어 사용
1
2
3
4
5
6
when customer_asks("환불")
if purchase_date within 30_days
then execute(refund_process)
and notify(customer, "환불이 처리되었습니다")
else
then ask_llm(complex_refund_scenario)
조건부 로직: 복잡한 if-then-else 구조 지원 정밀한 도구 사용: 어떤 상황에서 어떤 API를 호출할지 명시 가이드된 결정론적 제어: LLM이 벗어날 수 없는 가드레일 설정
세일즈포스 웹사이트의 공식 설명:
“LLM의 본질적인 무작위성을 제거해 핵심 비즈니스 워크플로우가 매번 정확히 동일한 단계를 따르도록 보장할 수 있다.”
하이브리드 추론의 실제 작동 방식
필 무이 수석 부사장이 제시한 ‘유도형 결정론(Guided Determinism through Hybrid Reasoning)’ 개념의 구체적 구현:
1단계: 업무 분류
- 정형 업무: 재고 관리, 환불 처리, 일정 관리 등 → 규칙 기반 처리
- 비정형 업무: 복잡한 고객 불만, 창의적 제안 등 → LLM 활용
2단계: 신뢰도 평가
- 각 LLM 응답에 신뢰도 점수 부여
- 임계값 이하면 규칙 기반 시스템으로 대체하거나 인간 개입 요청
3단계: 검증 및 보정
- LLM 출력을 기업 데이터베이스와 교차 검증
- 환각 감지 시 자동 거부 및 대안 응답 생성
4단계: 학습 및 개선
- 오류 케이스를 분석하여 규칙 베이스 확장
- 신뢰할 수 있는 패턴은 규칙으로 고정화
Agentforce 360: 12,000개 구현 사례의 학습
2025년 10월 Dreamforce에서 발표된 Agentforce 360은 12,000개 이상의 실제 구현 사례에서 얻은 학습을 반영한다:
주요 구성 요소:
Agentforce Voice:
- 네이티브 음성 레이어로 IVR 시스템을 자연스러운 실시간 대화로 전환
- 저지연 전사, 현실적인 음성 합성
- Amazon Connect, Five9, NiCE, Vonage 등 주요 CCaaS 파트너와 호환
Hybrid Reasoning & Agent Script:
- 결정론적 워크플로우와 유연한 LLM 추론 결합
- 정밀성과 적응성을 모두 확보
- Atlas Reasoning Engine 기반의 구성 가능한 아키텍처
Agentforce Vibes:
- 로우코드 개발을 AI로 확장
- “vibe-coding”으로 회사 데이터와 거버넌스에 기반한 앱 구축
- 개발자와 AI의 페어 프로그래밍 방식
Observability (관찰 가능성):
- 새로운 대시보드로 추론, 정확성, 컴플라이언스 모니터링
- 시간이 지남에 따라 신뢰성 개선
- 실시간 성능 메트릭 추적
Data 360:
- 구조화 및 비구조화 데이터 모두 활성화
- 모든 에이전트에게 비즈니스 맥락과 개인화 제공
- 복잡한 비구조화 소스에서 정보 추출 및 구조화
Trust Layer: 안전장치의 강화
세일즈포스의 Trust Layer는 에이전트가 안전하게 배포될 수 있도록 보장하는 핵심 안전장치다:
핵심 기능:
- 독성(toxicity) 감지 및 차단
- PII(개인식별정보) 자동 편집
- 회사별 데이터에 AI 출력 접지(grounding)
- 프롬프트 인젝션 공격 방어
- 실시간 콘텐츠 스캔 및 신뢰도 점수 생성
2025년 업데이트:
- 향상된 프롬프트 인젝션 감지
- 실시간 독성 스캔으로 들어오는 프롬프트와 생성된 LLM 응답 모두 검사
- 부적절한 콘텐츠 확률을 나타내는 신뢰도 점수 제공
비즈니스 영향: 숫자로 보는 변화
세일즈포스의 성과와 도전
Agentforce 채택 현황 (2025년 12월 기준):
- ARR (연간 반복 수익): 약 5억 4천만 달러
- 거래 건수: 18,500건 (이중 9,500건은 유료 거래)
- 분기별 50% 증가율
- 약 150,000개 고객 기반의 12%가 채택
타임라인:
- 2024년 10월 24일: Agentforce 출시 (200건 거래)
- 2025년 Q1: ARR 1억 달러 달성
- 2025년 Q3: ARR 5.4억 달러, 18,500건 거래
고객 성과 사례:
Adecco (인력 채용):
- 표준 근무 시간 외 후보자 대화의 51%를 에이전트가 처리
- 피에르 마투셰(Pierre Matuchet) SVP: “Agentforce는 대량 작업을 자동화하여 채용 담당자가 양질의 고객 참여에 집중할 수 있도록 전략적으로 시간을 확보해준다”
OpenTable (레스토랑 예약):
- 식당 및 레스토랑 문의의 70%를 자율적으로 해결
- 조지 포코니(George Pokorny) SVP: “Agentforce는 우리 업계가 요구하는 따뜻함과 백글러브 서비스를 제공했다. 몇 주 만에 우리 레스토랑 에이전트는 질문의 70%를 처리했다 - 이전 챗봇에 비해 현저한 개선이다”
Engine (고객 서비스):
- 처리 시간 15% 단축
- 연간 200만 달러 이상 절감
- 엘리아 월런(Elia Wallen) CEO: “Agentforce는 게임 체인저다. 음성 기능을 통해 고객에게 직접 독특한 브랜드 경험을 제공하여 규모에 맞는 신뢰할 수 있는 상호작용을 만들 수 있다”
“Agentic Enterprise”의 정의
세일즈포스는 “Agentic Enterprise”라는 새로운 개념을 제시했다. 2025년 10월 Dreamforce에서 처음 사용된 이 용어는 다음과 같이 정의된다:
미겔 밀라노(Miguel Milano) 세일즈포스 사장 겸 CRO:
“Agentic Enterprise는 대화형이며, 훨씬 더 똑똑하고, 직원들에게 추가 정보를 제공하여 역량을 강화한다. 자율적으로 실행할 수 있지만, AI가 실행하려고 할 때는 확률적으로, 현재 워크플로우를 실행하려고 할 때는 결정론적으로 작동한다.”
이는 확률적 AI와 결정론적 시스템의 공존을 명시적으로 인정한 것이다. 모든 것을 AI에 맡기는 것이 아니라, 적절한 균형을 찾는 것이 핵심이다.
시장 전망과 리스크
Gartner의 경고적 예측:
- 향후 2년 내 40% 이상의 “에이전트 AI 프로젝트”가 부적절한 리스크 통제로 중단될 것
- 진행되는 프로젝트 중 30-60%가 환각, 리스크, 거버넌스 부족으로 실패할 것
- 하지만 AI 에이전트 시장은 2029년까지 5,120억 달러 규모로 성장 예상
이는 엄청난 시장 기회와 동시에 실패 가능성도 매우 높다는 것을 의미한다. 세일즈포스의 전략 전환은 바로 이 실패 가능성을 줄이기 위한 현실적 대응이다.
아마존의 전망:
- “우리는 에이전트 AI가 다음 수십억 달러 규모의 비즈니스가 될 잠재력이 있다고 믿는다” - 바이런 쿡(Byron Cook), Amazon Automated Reasoning 담당 이사
- 하지만 “에이전트에게 신용카드 접근 권한을 주는 것은 십대에게 신용카드를 주는 것과 같다… 결국 조랑말을 소유하거나 창고 가득한 사탕을 갖게 될 수 있다”
업계 반응과 논쟁: 퇴보인가, 진화인가
“챗봇 시절로의 회귀” 논란
세일즈포스의 전략 전환에 대해 가장 강력한 비판은 “이것은 LLM 도입 이전 기본적인 챗봇을 사용하던 시절로 되돌아가는 것 아니냐”는 것이다.
비판론자들의 주장:
- 규칙 기반 시스템으로 돌아간다면, 수십억 달러를 투자한 LLM 기술의 의미가 무엇인가?
- AI의 핵심 가치인 유연성과 적응력을 포기하는 것 아닌가?
- 결국 2010년대의 “결정 트리(decision tree)” 챗봇으로 회귀하는 것인가?
실제 우려의 근거:
- LLM 의존도를 낮추면 챗봇이 고객 질문의 맥락과 미묘한 뉘앙스를 이해하지 못할 수 있다
- 포괄적이고 창의적인 답변 제공 능력 저하
- 예상치 못한 질문에 대한 대응력 감소
세일즈포스의 반박과 입장
세일즈포스 대변인의 공식 입장:
“우리는 LLM 기능을 축소한 것이 아니다. 주제 구조를 개선하고, 가이드라인을 강화하고, 정보 검색 품질을 향상하고, 더 구체적이고 맥락에 맞으며 실제 고객 요구에 맞는 답변을 제공하도록 조정했다.”
이는 ‘선택적 최적화’ 전략을 의미한다:
- 복잡한 맥락 이해가 필요한 경우 → LLM의 강점 활용
- 정형화된 프로세스 → 결정론적 방식 사용
- 중요도와 복잡성에 따른 차별화된 접근
트레이드오프의 솔직한 인정:
세일즈포스는 이러한 접근 방식의 한계를 숨기지 않는다:
- 일부 상황에서 AI의 창의성과 유연성이 감소할 수 있음을 인정
- 하지만 안정성과 정확성을 최우선으로 한다는 입장 명확화
- 특히 재고 관리, 환불 처리 등 정확성이 필수적인 업무에 집중
업계 전문가들의 평가
긍정적 평가:
데이비드 루안(David Luan), Amazon AGI Lab 대표:
“자율성 없는 신뢰성은 확장되지 않는다(Autonomy without reliability doesn’t scale). 세일즈포스의 경험은 이 어려운 진실을 강조한다.”
현실적 접근의 필요성 강조:
- MIT 2025년 연구: AI 파일럿 프로젝트의 95%가 의미 있는 투자 수익을 얻지 못함
- 따라서 “작동하는 AI”에 초점을 맞추는 것이 “최첨단 AI”를 추구하는 것보다 실용적
우려의 목소리:
일부 AI 연구자들:
“세일즈포스의 접근은 단기적 안정성을 위해 장기적 AI 발전 가능성을 제한할 수 있다. 우리는 AI가 더 똑똑해지도록 만들어야지, 더 제한적으로 만들어서는 안 된다.”
역사적 관점: 기술 성숙 곡선
기술 역사학자들은 세일즈포스의 전환을 “기술 성숙 곡선”의 자연스러운 과정으로 해석한다:
1단계 - 과도한 기대 (2022-2023):
- ChatGPT 출시로 인한 LLM 열풍
- “AI가 모든 것을 해결할 것”이라는 낙관론
- 대규모 투자와 급격한 배포
2단계 - 환멸의 골짜기 (2024):
- 환각 문제의 심각성 인식
- 예상보다 낮은 ROI
- 대규모 프로젝트 실패 사례 증가
3단계 - 계몽의 경사 (2025):
- 현실적인 기대치 조정
- 하이브리드 접근 방식 등장
- 세일즈포스의 전략이 바로 이 단계
4단계 - 생산성의 고원 (2026년 이후 예상):
- 안정적이고 예측 가능한 AI 시스템 구축
- 명확한 ROI와 베스트 프랙티스 확립
경쟁사들의 대응: 마이크로소프트의 전략
Microsoft Copilot: 다른 길, 같은 고민
마이크로소프트는 세일즈포스와는 다소 다른 접근 방식을 취하고 있지만, 근본적인 고민은 유사하다.
Microsoft의 현황 (2025년 12월 기준):
- 전 세계 100만 개 이상 기업에서 Microsoft 365 Copilot 사용
- Fortune 500 기업의 60% 이상이 2024년 초까지 채택
- Copilot Studio: 10,000개 이상 기업이 맞춤형 비즈니스 솔루션 구축에 활용
측정 가능한 비즈니스 영향:
- 문서 협업에서 29% 생산성 향상
- 의료 환경에서 관리 부담 23% 감소
- 직원 번아웃 19% 감소
- 일부 조직에서 생산성 10-15% 향상
Microsoft 내부 영업 조직 성과:
- 영업사원당 수익 9.4% 증가
- Copilot 고사용자의 계약 성사율 20% 증가
Non-Deterministic의 솔직한 인정
흥미롭게도, Microsoft는 공식 문서에서 비결정론적 특성을 명시적으로 인정하고 있다:
Excel의 COPILOT 함수 문서:
“이 함수는 비결정론적(non-deterministic)입니다 - 동일한 프롬프트가 다른 결과를 반환할 수 있습니다.”
제한 사항 명시:
- 계산에는 네이티브 Excel 수식 사용 권장
- 조회에는 XLOOKUP 사용
- 재현 가능해야 하는 재무 모델에는 문제 발생 가능
- 모델 지식은 2024년 6월 이전 데이터로 제한
- 속도 제한: 10분당 100회 호출, 시간당 300회
이는 “AI는 보조 도구이지 핵심 계산 엔진이 아니다”라는 메시지를 암묵적으로 전달한다.
Microsoft의 거버넌스 중심 접근
Microsoft는 세일즈포스의 “결정론적 자동화”보다는 “엔터프라이즈급 거버넌스”에 초점을 맞추고 있다:
Microsoft Entra Agent ID (프리뷰):
- Copilot Studio 또는 Azure AI Foundry에서 생성된 에이전트에 자동으로 고유 ID 부여
- Entra 디렉터리에서 관리
- 기업이 에이전트를 안전하게 관리할 수 있도록 지원
Agent 365: 통합 제어 플레인:
- 엔터프라이즈 에이전트를 위한 중앙 집중식 거버넌스
- 정책 관리 및 모니터링
- MCP 서버를 통한 회의 일정, 문서 생성, 이메일 발송, CRM 레코드 업데이트
- 완전한 컴플라이언스 및 감사 지원
관찰 가능성(Observability) 강화:
- Azure AI Foundry에 내장된 관찰 기능
- 성능, 품질, 비용, 안전성에 대한 메트릭
- 간소화된 대시보드에 상세한 추적 통합
Model Context Protocol (MCP) 지원
Microsoft는 2025년 Ignite에서 Model Context Protocol (MCP) 네이티브 지원을 발표했다:
MCP의 의미:
- AI 에이전트가 앱 및 도구와 연결하는 표준화된 방법
- 일상적인 시나리오 자동화 및 사용자를 대신한 작업 수행
- File Explorer 및 Windows Settings를 위한 내장 에이전트 커넥터
Windows 365 for Agents (프리뷰):
- 정책 제어 및 감사 가능한 환경
- 에이전트가 사용자의 기본 세션을 방해하지 않고 병렬로 작업 수행
- Manus AI, Fellou, Genspark, Simular, TinyFish 등이 활용 계획
Microsoft의 메모리 시스템
Microsoft는 세일즈포스의 “결정론적 제어”와는 다른 방향에서 일관성을 추구한다:
Memory Personalization (2025년 7월부터 기본 활성화):
- 사용자의 선호도, 커뮤니케이션 스타일, 반복 프로젝트, 작업 패턴을 세션 간 기억
- 매 대화마다 맥락을 다시 설명할 필요 없음
- 사용자가 저장된 메모리를 언제든지 확인, 편집, 삭제 가능
이는 “일관된 경험”을 제공하지만, 세일즈포스처럼 “동일한 출력 보장”과는 다른 개념이다.
GPT-5 시리즈와 최신 모델 전략
GPT-5 Chat 일반 출시 (EU 및 미국):
- 개선된 반응성, 정확성, 통찰력
- 메이커가 프로덕션 시나리오에서 자신 있게 사용 가능
GPT-5.2 시리즈 (2025년 12월 11일):
- 향상된 코드 생성 및 다국어 기능
- Microsoft 365 Copilot 라이선스 사용자에게 우선 액세스
- 몇 주 내 모든 사용자에게 제공 예정
모델 다양성 전략:
- Copilot Studio에서 광범위한 OpenAI 및 Anthropic 모델 제공
- 작업에 적합한 모델 선택 가능
- GPT-5.1 등 최신 모델 지속 추가
전략적 차이점 요약
| 측면 | 세일즈포스 | 마이크로소프트 |
|---|---|---|
| 핵심 접근 | 결정론적 자동화 | 엔터프라이즈 거버넌스 |
| LLM 역할 | 선택적, 제한적 사용 | 광범위하게 사용하되 통제 |
| 일관성 확보 | 규칙 기반 워크플로우 | 메모리 + 정책 관리 |
| 비결정론 대응 | 회피 (Agent Script) | 인정 및 관리 (문서화) |
| 시장 포지션 | CRM 중심, 특화된 에이전트 | 범용 생산성, 광범위한 통합 |
| 주요 도구 | Atlas Reasoning Engine, Agent Script | Entra Agent ID, Agent 365, MCP |
두 기업 모두 “신뢰할 수 있는 엔터프라이즈 AI”라는 목표를 공유하지만, 경로는 다르다. 세일즈포스는 더 엄격한 제어를, Microsoft는 더 유연한 거버넌스를 추구한다.
산업적 의미: AI 에이전트의 현실화
환각 문제의 심각성 재확인
세일즈포스의 전략 전환은 AI 환각이 더 이상 “해결해야 할 기술적 과제”가 아니라 “비즈니스 크리티컬한 리스크”임을 명확히 했다.
산업별 영향:
법률 분야:
- 2025년 6월 워싱턴 포스트 보도: 미국 전역의 변호사들이 AI 도구가 생성한 판례를 포함한 법정 문서 제출
- 사법 반발과 벌금 부과
- 법률 전문 도구(Lexis+ AI, Westlaw AI)도 17-34% 환각률 기록
- 특히 출처 오인용 및 부정확한 전제 동의 문제
재무/금융:
- AI 검색 도구가 최신 가격 정보 제공에 실패하여 비즈니스 불일치 발생
- 엔터프라이즈 AI 검색 플랫폼은 데이터 신선도를 보장해야 함
- 실시간 데이터 통합 및 지속적인 AI 출력 검증 필요성
의료:
- AI 건강 조언을 따르는 미국인의 20% 이상이 나중에 잘못된 것으로 판명된 조언을 받음
- 생명과 직결된 분야에서 AI 환각은 치명적 결과 초래 가능
고객 서비스:
- 에어 캐나다 사례처럼 존재하지 않는 정책이나 할인을 약속
- 기업의 법적 책임으로 이어짐
- 브랜드 신뢰도에 장기적 타격
기업 운영의 현실과 AI의 괴리
2024년 한 해 동안 AI 에이전트는 뜨거운 관심을 모았고 많은 기업이 용이성을 인정했다. 하지만 다음과 같은 근본적인 괴리가 드러났다:
기술적 문제:
- 환각률 증가 (18% → 35%)
- 비결정론적 특성으로 인한 예측 불가능성
- 복잡한 멀티스텝 추론에서의 오류 누적
- 최신 정보 접근의 제한 (대부분 모델이 2024년 중반 이전 데이터로 학습)
기업 운영 방식과의 충돌:
- 기업은 “같은 입력 → 같은 출력” 기대
- AI는 “같은 입력 → 유사하지만 다른 출력” 제공
- 감사(audit) 및 컴플라이언스 요구사항과 충돌
- 버전 관리 및 변경 추적의 어려움
거버넌스 문제:
- AI 에이전트의 결정에 대한 책임 소재 불분명
- 규제 준수 입증의 어려움
- 데이터 프라이버시 및 보안 우려
- 윤리적 가이드라인 적용의 복잡성
다른 기업들에 미치는 영향
세계 최대 소프트웨어 기업 중 하나인 세일즈포스가 LLM 기능을 부분적으로 축소한 것은 이 기술을 사용하는 다른 기업들에게도 큰 영향을 줄 것으로 예상된다.
즉각적 영향:
1. 기대치 조정:
- “AI가 모든 것을 해결”에서 “AI가 특정 영역을 지원”으로 전환
- ROI 예측의 현실화
- 점진적 도입 전략 재검토
2. 투자 전략 변경:
- 순수 LLM 스타트업보다 하이브리드 솔루션에 투자 증가
- 거버넌스 및 안전성 도구에 대한 수요 급증
- “AI 감사” 및 “AI 검증” 서비스 시장 성장
3. 조직 구조 변화:
- “AI 거버넌스 오피서” 역할 신설
- Human-in-the-loop 프로세스 표준화
- AI 출력 검증 전담 팀 구성
장기적 영향:
1. 규제 강화:
- EU AI Act 등 AI 규제의 구체화
- 금융, 의료 등 규제 산업에서 더 엄격한 요구사항
- AI 안전성 인증 제도 도입 가능성
2. 시장 세분화:
- 고위험 영역 (금융, 의료, 법률): 결정론적 AI 선호
- 저위험 영역 (마케팅, 콘텐츠 생성): 확률적 AI 수용
- 하이브리드 솔루션이 중간 지대 차지
3. 새로운 비즈니스 모델:
- “AI-as-a-Service”에서 “Verified-AI-as-a-Service”로 진화
- AI 보험 상품 출시
- AI 출력 인증 서비스
교훈과 베스트 프랙티스
세일즈포스와 비빈트 등의 경험에서 얻은 교훈:
1. 단계적 접근의 필요성:
- 모든 업무를 LLM 기반 에이전트에 맡기지 말 것
- 정형화된 업무와 비정형화된 업무를 명확히 구분
- 저위험 영역에서 먼저 시작, 점진적 확대
2. 하이브리드 아키텍처 필수:
- 규칙 기반 시스템과 LLM을 적절히 조합
- 각 업무의 특성에 맞는 최적 솔루션 선택
- “AI 우선”이 아니라 “목적 우선” 사고
3. 비용 관리의 중요성:
- LLM의 무분별한 사용은 예상치 못한 비용 증가
- 토큰 사용 최적화 전략 필요
- ROI 지속적 모니터링
4. 품질 보증 메커니즘:
- LLM 출력에 대한 자동 검증 시스템
- Human-in-the-loop 프로세스 (전체의 76% 기업이 이미 도입)
- 신뢰도 점수 및 불확실성 표시
5. 조직 문화 변화:
- AI 리터러시 교육
- “AI 협업” 마인드셋
- 실패를 학습 기회로 활용
기술적 함의: AI 개발의 새로운 방향
RAG와 프롬프트 엔지니어링의 한계
세일즈포스의 경험은 단순히 RAG(Retrieval-Augmented Generation)나 프롬프트 엔지니어링만으로는 기업급 AI 시스템을 구축하기 어렵다는 점을 시사한다.
RAG의 한계:
- 검색된 문서가 정확하더라도 LLM이 잘못 해석 가능
- 문서 간 모순이 있을 때 LLM의 자의적 선택
- 검색 품질에 전적으로 의존
- 실시간 데이터 동기화 문제
프롬프트 엔지니어링의 한계:
- 아무리 정교한 프롬프트라도 100% 일관성 보장 불가
- 프롬프트 복잡도 증가 → 토큰 비용 증가
- 프롬프트 인젝션 공격에 취약
- 모델 업데이트 시 프롬프트 재조정 필요
더 구조화된 접근 필요:
- 시맨틱 검증 레이어
- 출력 구조 강제
- 다단계 검증 파이프라인
- 도메인 특화 제약 조건
구조화된 출력(Structured Output)의 중요성
에이전트 그래프와 같은 접근 방식은 LLM의 출력을 구조화하고 예측 가능하게 만드는 것의 중요성을 강조한다.
최신 트렌드:
OpenAI의 Structured Outputs:
- JSON 스키마 준수 보장
- 함수 호출의 신뢰성 향상
- API를 통한 타입 안전성
Anthropic의 Tool Use:
- 명시적 도구 정의
- 파라미터 검증
- 실행 전 확인 메커니즘
세일즈포스의 Agent Script:
- 인간 가독성 + 기계 실행 가능성
- 비즈니스 로직을 코드로 명시
- LLM을 “함수”로 취급하여 호출
공통 패턴:
- LLM을 “자유로운 대화 파트너”가 아니라 “제약된 함수”로 사용
- 입출력의 타입 안전성 확보
- 검증 가능한 중간 단계
다중 에이전트 시스템의 복잡성
여러 AI 에이전트가 협력하는 시스템에서는 각 에이전트의 역할과 책임을 명확히 정의하고, 상호작용을 제어할 수 있는 메커니즘이 필수적이다.
과제:
- 에이전트 간 통신 프로토콜
- 충돌 해결 메커니즘
- 작업 우선순위 조정
- 전체 시스템의 일관성 유지
세일즈포스의 해결책:
- 에이전트 그래프로 에이전트 간 관계 시각화
- 명확한 입출력 계약(contract)
- 중앙 오케스트레이션 레이어
- 감사 추적(audit trail) 자동 생성
Microsoft의 접근:
- Agent 365를 통한 중앙 집중식 관리
- MCP를 통한 표준화된 통신
- Windows 365 for Agents로 격리된 실행 환경
- Entra Agent ID로 ID 및 접근 관리
Neuro-Symbolic AI의 부상
Amazon의 Automated Reasoning 접근은 또 다른 중요한 방향을 제시한다:
바이런 쿡(Byron Cook), Amazon Automated Reasoning 이사:
- “에이전트에게 더 많은 자율성이 부여될수록… 자동화된 추론이 광범위한 엔터프라이즈 채택에 도달하는 데 핵심이 될 것”
- 수학적 증명을 통한 AI 오작동 제거
- 자연어로 작성된 안전 정책을 흐름도 같은 시각화로 변환, 수학적 증명으로 뒷받침
Neuro-Symbolic AI의 핵심 아이디어:
- Neural (신경망): 패턴 인식, 자연어 이해
- Symbolic (기호적 추론): 논리, 규칙, 증명
- 둘의 결합으로 “이해력 + 신뢰성” 달성
적용 분야:
- 금융 거래: 신경망으로 이상 감지 → 기호 시스템으로 규정 준수 검증
- 의료 진단: 신경망으로 증상 분석 → 기호 시스템으로 치료 가이드라인 적용
- 법률 분석: 신경망으로 사례 검색 → 기호 시스템으로 법적 논리 검증
Amazon은 이를 “러시안 룰렛을 피하는 방법”이라고 표현한다. 에이전트가 “로켓을 발사”할 수 있는 권한이 있을 때, 수학적으로 “발사해서는 안 될 때는 절대 발사하지 않음”을 증명할 수 있어야 한다는 것이다.
미래 전망: 성숙기로 접어드는 AI 에이전트
기대의 조정과 현실화
세일즈포스의 전략 전환은 AI 에이전트에 대한 과도한 기대를 현실적 수준으로 조정하는 계기가 될 것이다.
2024년의 환상:
- “LLM이 모든 고객 서비스를 대체할 것”
- “코드 작성이 90% 자동화될 것”
- “화이트칼라 일자리의 대규모 대체”
- “1년 내 AGI 달성”
2025년의 현실:
- LLM은 특정 영역에서 보조 도구로 유용
- 코드 생성은 20-30% 수준, 품질과 보안 이슈 존재
- 일자리 대체보다는 역할 변화 (실행 → 관리/감독)
- AGI는 여전히 먼 미래 (최소 3-5년 이상)
새로운 현실적 목표:
- “신뢰할 수 있는 AI”: 일관성, 예측 가능성, 검증 가능성
- “증강된 인간(Augmented Human)”: AI가 인간을 대체하는 것이 아니라 증강
- “하이브리드 지능”: 인간의 판단 + AI의 처리 능력
- “Enterprise General Intelligence (EGI)”: AGI가 아닌, 비즈니스에 특화된 신뢰할 수 있는 AI
표준화와 베스트 프랙티스의 등장
세일즈포스와 같은 선도 기업들의 시행착오를 통해, AI 에이전트 개발 및 운영의 베스트 프랙티스가 점차 확립될 것으로 보인다.
예상되는 표준:
1. 아키텍처 패턴:
- 하이브리드 추론 아키텍처 (세일즈포스 모델)
- 중앙 집중식 거버넌스 (Microsoft 모델)
- Neuro-Symbolic 통합 (Amazon 모델)
2. 평가 메트릭:
- 환각률뿐만 아니라 불확실성 표현 능력 측정
- “정확도”가 아닌 “신뢰도 보정(calibration)” 평가
- OpenAI 제안: 자신감 있는 오류에 페널티, 적절한 불확실성 표현에 부분 점수
3. 안전 장치:
- Trust Layer (세일즈포스)
- Entra Agent ID + Agent 365 (Microsoft)
- Automated Reasoning (Amazon)
- 이들의 공통 요소들이 업계 표준으로 수렴
4. 감사 및 컴플라이언스:
- 모든 AI 결정에 대한 추적 가능성(traceability)
- 설명 가능성(explainability) 요구사항
- 인간 검토 프로세스
- 롤백 및 복구 메커니즘
규제와 거버넌스의 강화
AI 에이전트의 오작동이 기업 운영에 미치는 영향이 명확해짐에 따라, 관련 규제와 거버넌스 체계도 강화될 것으로 예상된다.
EU AI Act의 영향:
- 고위험 AI 시스템에 대한 엄격한 요구사항
- 투명성 및 설명 가능성 의무
- 인간 감독 의무화
- 데이터 거버넌스 요구사항
산업별 규제 예상:
금융:
- AI 의사결정에 대한 감사 추적 의무
- 모델 검증 및 스트레스 테스트
- 편향 및 차별 방지
의료:
- FDA 승인 프로세스 (AI 의료 기기)
- 임상 검증 요구사항
- 환자 안전 우선
법률:
- AI 생성 법률 문서에 대한 변호사 검토 의무
- 출처 검증 요구사항
- 전문가 책임 유지
규제가 산업에 미치는 영향:
- 단기: 비용 증가, 개발 속도 저하
- 중기: 신뢰 구축, 시장 성숙도 향상
- 장기: 건전한 AI 생태계 형성
차별화된 LLM 활용 전략
향후 AI 에이전트 시장에서는 “얼마나 많은 LLM을 사용하느냐”가 아니라 “얼마나 적절하게 LLM을 사용하느냐”가 경쟁력의 핵심이 될 것이다.
성공적인 전략의 특징:
1. 작업별 맞춤화:
- 정형 작업: 규칙 기반 또는 소형 특화 모델
- 비정형 작업: 대형 LLM
- 하이브리드 작업: 조건부 LLM 호출
2. 비용 최적화:
- 캐싱 전략
- 프롬프트 압축
- 배치 처리
- 모델 크기 최적화 (필요 이상으로 큰 모델 사용하지 않기)
3. 품질 보증:
- 다중 모델 앙상블
- 자체 일관성 검사(self-consistency)
- 외부 검증 시스템
- 신뢰도 임계값
4. 지속적 개선:
- A/B 테스팅
- 사용자 피드백 루프
- 오류 케이스 분석
- 규칙 베이스 확장
인력 구조의 변화
2026년까지 예상되는 역할 변화:
사라지지 않고 진화하는 역할:
- 고객 서비스 담당자: 단순 질의 → 복잡한 문제 해결 전문가
- 개발자: 코드 작성 → AI 협업 및 시스템 아키텍처
- 분석가: 데이터 수집 → AI 출력 검증 및 전략 수립
새롭게 부상하는 역할:
- AI 에이전트 매니저: 에이전트의 성능 모니터링 및 최적화
- AI 거버넌스 전문가: 규정 준수 및 윤리적 사용 보장
- AI 품질 보증 엔지니어: AI 출력 검증 및 개선
- 인간-AI 협업 디자이너: 효과적인 인간-AI 워크플로우 설계
필요한 스킬셋 변화:
- 단순 도구 사용 → AI 리터러시
- 실행 능력 → 판단 및 검증 능력
- 개별 작업 → 시스템 사고
- 기술적 전문성 → 기술 + 도메인 전문성 결합
시장 세분화 예측
고위험-고가치 시장 (금융, 의료, 법률, 항공):
- 결정론적 AI 또는 Neuro-Symbolic AI 선호
- 높은 규제 준수 비용 감수
- 프리미엄 가격 지불 의향
- 세일즈포스 모델이 주류
중위험-중가치 시장 (일반 기업 서비스, 전자상거래):
- 하이브리드 솔루션 선호
- 비용과 성능의 균형
- 점진적 자동화
- Microsoft/세일즈포스 혼합 모델
저위험-저가치 시장 (콘텐츠 생성, 소셜 미디어):
- 확률적 AI 수용
- 비용 최소화 우선
- 빠른 혁신 선호
- 순수 LLM 기반 솔루션
기술 로드맵 예측
2026년:
- 하이브리드 추론 아키텍처의 표준화
- 대부분의 엔터프라이즈 AI 플랫폼이 결정론적 옵션 제공
- AI 거버넌스 도구 시장 급성장
- 첫 AI 에이전트 인증 제도 등장
2027-2028년:
- Neuro-Symbolic AI의 주류화
- 자동화된 추론 기능이 엔터프라이즈 AI의 표준
- 업계별 특화 AI 에이전트 플랫폼 성숙
- AI 보험 상품의 보편화
2029-2030년:
- 진정한 “Agentic Enterprise” 구현
- 인간과 AI 에이전트의 자연스러운 협업
- 대부분의 정형 업무 자동화
- 인간은 전략, 창의성, 복잡한 판단에 집중
결론: 현실적 AI의 시대로
세일즈포스의 AI 에이전트 전략 전환은 AI 산업이 ‘환상의 시대’에서 ‘현실의 시대’로 접어들고 있음을 보여주는 중요한 이정표다.
핵심 교훈
1. 솔직함의 가치
“1년 전만 해도 우리는 모두 LLM을 더 많이 신뢰했었다”는 세일즈포스의 솔직한 고백은, 실패를 인정하고 방향을 전환할 수 있는 용기의 중요성을 보여준다. AI 업계는 마케팅 과장보다는 현실적 평가가 필요하다.
2. 기술의 성숙은 한계 인정에서 시작
LLM의 확률적 특성은 약점이 아니라 본질적 특징이다. 이를 인정하고 적절히 활용하는 것이 진정한 기술 성숙도다. “모든 문제를 LLM으로”가 아니라 “적절한 문제를 LLM으로”가 올바른 접근이다.
3. 하이브리드가 답이다
순수 LLM도, 순수 규칙 기반도 아닌, 둘의 장점을 결합한 하이브리드 접근이 현실적 해답이다. 세일즈포스의 “유도형 결정론”, Microsoft의 “거버넌스 중심 접근”, Amazon의 “자동화된 추론”은 모두 이 방향을 가리킨다.
4. 신뢰성이 혁신을 이긴다
기업 환경에서는 “놀라운 결과를 가끔 내는 AI”보다 “예측 가능한 결과를 항상 내는 AI”가 더 가치 있다. 바이런 쿡의 말처럼, “자율성 없는 신뢰성은 확장되지 않는다.”
5. 인간-AI 협업이 미래다
AI가 인간을 대체하는 것이 아니라, 인간의 판단력과 AI의 처리 능력이 결합될 때 최고의 결과가 나온다. “Agentic Enterprise”는 AI만의 기업이 아니라 인간과 AI가 협력하는 기업을 의미한다.
실무자를 위한 권고사항
기업 리더들에게:
- AI 도입에 대한 기대치를 현실화하라
- 단계적 접근과 파일럿 프로젝트로 시작하라
- 거버넌스와 안전 장치에 충분히 투자하라
- ROI를 지속적으로 측정하고 조정하라
기술 리더들에게:
- 하이브리드 아키텍처를 설계하라
- 작업의 특성에 맞는 솔루션을 선택하라
- 관찰 가능성과 추적 가능성을 설계 단계부터 고려하라
- 실패 사례를 학습 기회로 활용하라
개발자들에게:
- AI 리터러시를 지속적으로 향상시켜라
- 구조화된 출력과 타입 안전성을 우선시하라
- 검증 및 테스트를 개발 프로세스에 통합하라
- 도메인 지식과 기술 지식을 결합하라
마지막 메시지
세일즈포스의 전략 전환이 주는 가장 중요한 메시지는 이것이다: AI의 진정한 가치는 무엇을 할 수 있느냐가 아니라, 무엇을 신뢰할 수 있게 할 수 있느냐에 있다.
2024년은 “AI가 무엇을 할 수 있는가”를 탐구한 해였다면, 2025년은 “AI를 어떻게 신뢰할 수 있게 만들 것인가”를 고민하는 해가 될 것이다. 세일즈포스는 이 여정의 선두에서 솔직하게 문제를 인정하고, 실용적인 해결책을 제시하고 있다.
앞으로 AI 에이전트를 도입하려는 기업들은 세일즈포스의 경험을 참고하여, 무조건적인 LLM 의존보다는 업무 특성에 맞는 균형 잡힌 접근 방식을 취해야 할 것이다. 정확성과 일관성이 중요한 영역에는 결정론적 방식을, 창의성과 유연성이 필요한 영역에는 LLM을 활용하는 식의 전략적 선택이 필요하다.
기술에 대한 맹목적 신뢰보다는, 실제 사용자와 비즈니스의 필요를 중심에 두고 기술을 선택하고 적용하는 지혜. 이것이 바로 세일즈포스가, 그리고 AI 업계 전체가 우리에게 주는 교훈이다.
관련 기사: 세일즈포스, 에이전트 정확도 높이기 위해 LLM 의존도 축소
작성 일자: 2025-12-25
분석 기반: 2024년 12월~2025년 12월 최신 자료
주요 출처:
- 세일즈포스 공식 발표 및 기술 블로그
- The Information, NewsGuard, Deloitte, Gartner 리포트
- Microsoft, Amazon, OpenAI 공식 문서
- 업계 전문가 인터뷰 및 학술 연구
참고 링크:
- Salesforce Agentforce 360: https://www.salesforce.com/agentforce/
- Microsoft Build 2025: https://blogs.microsoft.com/blog/2025/05/19/microsoft-build-2025/
- OpenAI on Hallucinations: https://openai.com/index/why-language-models-hallucinate/
- Gartner AI Market Research
- AI Hallucination Report 2025