Google Gemini Embeddings 2 × Claude Code: RAG의 완전한 패러다임 전환
출처: YouTube — Nate Herk | 2026년 3월 12일 공개
주제: Gemini Embeddings 2와 Claude Code를 활용한 완전한 멀티모달 RAG 파이프라인 구축
목차
- 개요 및 핵심 메시지
- Gemini Embeddings 2란 무엇인가
- RAG와 벡터 임베딩의 작동 원리
- 실제 데모 사례 분석
- 구축 과정 단계별 설명
- 현재 기술적 제한 사항
- 핵심 시사점 및 미래 전망
- 필요한 도구 및 설정 방법
1. 개요 및 핵심 메시지
이 영상은 Google이 발표한 Gemini Embeddings 2가 기존 RAG(Retrieval-Augmented Generation) 개발 방식을 얼마나 근본적으로 바꾸고 있는지를 실제 데모와 함께 보여준다. 특히 Claude Code와 결합했을 때 발생하는 생산성의 비약적 향상이 핵심 주제이다.
영상의 제작자 Nate Herk는 과거에 n8n 같은 노코드/로코드 도구로 멀티모달 벡터 스토어 에이전트를 구축해본 경험이 있으며, 그것이 얼마나 복잡하고 취약한 과정이었는지를 잘 알고 있다. 그래서 이번 조합이 주는 충격이 더욱 크다고 강조한다.
핵심 주장: 기존에 수 시간, 심지어 수 일이 걸리던 멀티모달 RAG 파이프라인 구축이, 이제는 자연어 지시만으로 30분 이내에 완성된다.
2. Gemini Embeddings 2란 무엇인가
2-1. 정의
Gemini Embeddings 2는 Google이 공개한 최초의 네이티브 멀티모달 임베딩 모델이다. 기존 임베딩 모델들이 텍스트만, 혹은 이미지만 처리하던 것과 달리, 이 모델은 다음 미디어 유형을 하나의 통합된 벡터 공간에서 처리할 수 있다.
- 텍스트 (문서, 메모, 스크립트 등)
- 이미지 (PNG, JPEG)
- 비디오 (MP4, OGV, 최대 120초)
- 오디오
- 문서 (PDF 등)
2-2. 왜 ‘네이티브 멀티모달’이 중요한가
기존의 멀티모달 RAG 구현 방식은 다음과 같은 우회적 접근이 필요했다.
- 이미지 → 별도 비전 모델로 캡션/설명 생성 → 텍스트로 변환 → 텍스트 임베딩
- 문서 → 청킹(chunking) 전략 수동 설계 → 이미지/텍스트 분리 저장 → 별도 검색 로직 구현
Gemini Embeddings 2는 이러한 변환 과정 없이, 모든 미디어 타입을 직접 이해하고 동일한 벡터 공간에 배치한다. 텍스트와 이미지, 비디오가 서로의 의미적 관계를 유지한 채 하나의 데이터베이스에 공존하게 된다.
2-3. 벡터 공간에서의 배치 원리
임베딩된 데이터는 의미(semantic)에 따라 다차원 공간의 특정 위치에 배치된다. 예를 들어 영상에서 소개된 테스트 데이터셋을 보면:
| 항목 | 카테고리 | 미디어 타입 |
|---|---|---|
| 첫 번째 에이전트 워크플로우 (텍스트) | 기술(Tech) | 텍스트 |
| 기타 치는 강아지 (비디오) | 엔터테인먼트 | 비디오 |
| 스마일 감자 튀김 (이미지) | 음식(Food) | 이미지 |
| Adam Sandler와 함께한 사진 | 사람/관계 | 이미지 |
서로 전혀 관련 없는 이 파일들도 모델은 카테고리를 스스로 판단하여 적절한 위치에 배치한다. 만약 이 모든 파일이 “지붕 이미지”처럼 동일한 도메인의 데이터라면, 수해 손상 지붕, 노후화 지붕, 시공 방식별 지붕 등으로 더욱 세밀하게 구분되어 배치된다.
3. RAG와 벡터 임베딩의 작동 원리
3-1. RAG란
RAG(Retrieval-Augmented Generation)는 AI 모델의 지식 한계를 보완하는 아키텍처이다.
AI 에이전트는 학습 데이터 내의 정보만 알고 있다. 모르는 것을 물어보면, 외부 데이터베이스에서 관련 정보를 검색(Retrieve)하고, 그 정보로 답변을 보강(Augment)하여, 최종 답변을 생성(Generate)한다.
3-2. 벡터 데이터베이스 기반 RAG의 흐름
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
[원본 데이터 (문서/이미지/비디오)]
↓
[청킹 및 전처리]
↓
[임베딩 모델 (Gemini Embeddings 2)]
↓
[벡터 포인트 생성 — 데이터의 수치적 의미 표현]
↓
[벡터 데이터베이스 저장 (Pinecone)]
↓
[사용자 질문 → 동일 임베딩 모델로 질문 벡터화]
↓
[유사도 검색 → 가장 관련성 높은 청크 반환]
↓
[LLM이 검색 결과를 바탕으로 최종 답변 생성]
3-3. Gemini Embeddings 2가 이 흐름을 바꾸는 방식
기존에는 각 미디어 타입별로 별도의 처리 파이프라인을 설계해야 했다. Gemini Embeddings 2는 이 모든 과정을 단일 임베딩 모델로 통합한다. 이미지의 시각적 내용, 비디오의 동적 맥락, 텍스트의 의미가 하나의 벡터 공간에서 비교되고 검색된다.
4. 실제 데모 사례 분석
4-1. 데모 1: 진공청소기 사용 설명서 (PDF → 멀티모달 RAG)
배경: 68페이지 분량의 진공청소기(Hoover Impulse 무선 청소기) PDF 사용 설명서를 데이터베이스에 적재하고, 챗봇으로 질의하는 시스템을 구축했다.
기존 방식의 어려움:
- PDF의 텍스트와 이미지를 분리하는 로직 설계
- 이미지를 별도 저장하고 검색 시 다시 연결하는 파이프라인
- n8n 같은 도구에서 이 모든 것을 수동으로 노드 연결
Gemini Embeddings 2 + Claude Code 방식:
- PDF 파일을 폴더에 드롭
- Claude Code에 자연어로 지시: “이 PDF를 Gemini 임베딩 모델로 Pinecone에 넣고 채팅 앱을 만들어줘”
- 30분 이내 완성
실제 질의 결과:
- 질문: “필터 청소 방법을 알려줘”
- 답변: 단계별 텍스트 설명 + 해당 페이지의 실제 다이어그램 이미지 반환
- 동일 다이어그램의 다국어 버전도 함께 반환 (필터링 가능)
- 소스 페이지 번호 + 신뢰도(매칭 퍼센트) 표시
- 질문: “부품이 무엇인가요?”
- 답변: 6페이지(주요 구성품), 7페이지(포함 항목), 액세서리 페이지에서 각각 정보 추출
- 박스 내용물 이미지, 본체 구성요소 이미지, 액세서리 주문 방법 이미지 반환
핵심 가치: 단순 텍스트 검색이 아니라, 기술적 다이어그램이 실제로 필요한 맥락에서 이미지를 함께 제공한다는 점이 실용성을 크게 높인다.
4-2. 데모 2: 지붕 공사 업체 과거 프로젝트 검색 시스템
배경: 지붕 이미지 13장(과거 공사 현장, 다양한 문제 유형)을 데이터베이스에 적재하고, 새로운 지붕 사진을 업로드하면 유사한 과거 프로젝트를 찾아주는 시스템이다.
활용 시나리오: 고객이 자신의 지붕 사진을 업로드하면, 시스템이 유사한 과거 프로젝트 5개를 반환하고 견적 범위, 작업 기간, 팀 규모, 지붕 유형 분류 등의 정보를 제공한다.
데모 결과:
- 이미지 업로드 → “유사한 과거 프로젝트 찾기” 실행
- 5개 유사 프로젝트 반환, 각 프로젝트마다 유사도 퍼센트 표시
- 견적 범위, 평균값, 팀 규모, 추세, 지붕 유형 분석 제공
추가 대화 기능:
- 후속 질문 가능: “Richmond, Virginia에서 진행한 건 어떤 프로젝트였나요?”
- 해당 이미지의 메타데이터 추출 및 관련 이미지 추가 검색 가능
- 기본 정보, 작업 범위, 특이사항, 가격 정보, 배경 맥락 등 반환
제작자 코멘트: 실제 도메인 전문 지식(각 프로젝트의 실제 데이터)이 더해진다면 업무 현장에서 즉시 활용 가능한 수준의 시스템이다. 데모용으로는 임의로 생성한 데이터를 사용했다.
5. 구축 과정 단계별 설명
5-1. 필요한 계정 및 API 키
| 서비스 | 용도 | 비용 |
|---|---|---|
| Pinecone (pinecone.io) | 벡터 데이터베이스 | Starter 플랜 무료 |
| Google AI Studio | Gemini Embeddings 2 API 키 | 무료 (제한 있음) |
| Open Router (openrouter.ai) | LLM 통합 (ChatGPT, Claude, Gemini 등) | 사용량 기반 과금 |
| Claude Code | AI 개발 도우미 | 유료 구독 필요 |
Open Router 대신 Anthropic API 키나 OpenAI API 키를 직접 사용해도 된다. Open Router는 여러 모델을 하나의 키로 사용할 수 있어 편의상 선택한 것이다.
5-2. Claude Code 환경 설정
- Visual Studio Code 설치 (무료)
- Extensions에서 Claude Code 검색 및 설치
- Claude 유료 계정으로 로그인
- 새 폴더(프로젝트) 생성 후 열기
- 좌측 상단 오렌지 버튼으로 Claude Code 패널 열기
5-3. 프로젝트 계획 단계 (Plan Mode)
Claude Code의 Plan Mode를 활용하여 실제 코드 작성 전에 구조를 설계한다.
제작자가 입력한 프롬프트 요약:
“Google Gemini Embeddings 2 API 문서 URL을 참고해서, 이미지·비디오·텍스트를 담을 Pinecone 벡터 데이터베이스 파이프라인을 구축해줘. .env 파일 플레이스홀더도 만들어줘. Pinecone API 키, Gemini API 키, Open Router API 키가 필요해.”
Claude Code는 다음을 자동 생성한다:
- 프로젝트 폴더 구조
- 필요한 의존성(dependencies) 목록
- 단계별 실행 계획
.env파일 (API 키 입력 위치 포함)
계획 검토 후 원하는 부분은 코멘트로 수정 요청이 가능하다.
5-4. 데이터 수집 및 임베딩
- 생성된
data폴더에 임베딩할 파일 드롭 (이미지, 비디오, 텍스트, PDF 등 혼합 가능) - Claude Code에 지시: “media 폴더에 파일 넣었어. Pinecone에 인제스팅해줘.”
- Claude Code가 자동으로:
- Pinecone 인덱스 생성
- 각 파일 유형 감지 및 처리
- 메타데이터 생성 및 임베딩
- 벡터 데이터베이스 저장
5-5. 채팅 웹앱 구축
임베딩 완료 후 로컬호스트 기반 채팅 앱을 요청한다.
프롬프트 예시:
“간단한 채팅 웹앱을 로컬호스트에 만들어줘. 프론트엔드 디자인 스킬을 써서 깔끔하게 만들어줘. 채팅 모델은 Sonnet을 사용해.”
결과: 브라우저에서 바로 사용 가능한 멀티모달 RAG 채팅 인터페이스 완성.
5-6. 반복적 개선 (Iterative Improvement)
Claude Code와의 작업에서 중요한 점은 대화식으로 계속 개선할 수 있다는 것이다.
예시 개선 과정:
- 초기 앱에서 이미지/비디오가 텍스트 설명으로만 반환됨을 발견
- Claude Code에 질문: “왜 이미지가 직접 안 나오고 파일명만 나오나요?”
- Claude Code 설명: 현재는 임베딩 시 생성된 텍스트 설명만 저장되어 있음
- 해결 지시: “강아지 기타 영상에 메타데이터 추가하고, 미디어를 직접 서빙할 수 있게 앱 업데이트해줘”
- 결과: 앱에서 실제 비디오 재생 가능
제작자의 철학: “이해가 안 되면 그냥 물어봐라. Claude Code와 일할 때 가장 중요한 마인드셋은 진심 어린 호기심이다.”
6. 현재 기술적 제한 사항
Gemini Embeddings 2는 강력하지만 현재 다음과 같은 제한이 존재한다.
| 미디어 타입 | 제한 사항 |
|---|---|
| 비디오 | 최대 120초, MP4 및 OGV 포맷만 지원 |
| 이미지 | 요청당 최대 6개, PNG 및 JPEG 포맷만 지원 |
| 오디오 | 지원되나 좋은 설명(메타데이터)이 필수 |
| PDF (대용량) | 청킹 전략이 필요하지만 Claude Code가 자동 처리 |
제작자는 이러한 제한이 향후 빠르게 개선될 것으로 예상하며, 68페이지 PDF 처리 사례처럼 Claude Code가 제한을 우회하는 방법을 스스로 찾아낼 수 있음을 강조한다.
7. 핵심 시사점 및 미래 전망
7-1. 개발 패러다임의 전환
이 기술 조합이 가져오는 가장 큰 변화는 AI 개발의 진입 장벽 하락이다.
기존 방식:
- n8n이나 Python으로 직접 멀티모달 파이프라인 구축
- 미디어 타입별 처리 로직 수동 설계
- 수 시간~수 일의 개발 시간
- 복잡하고 취약한 시스템
새로운 방식:
- 자연어로 요구사항 설명
- Claude Code가 전체 파이프라인 자동 구현
- 30분 이내 작동하는 프로토타입
- 반복적 대화로 지속 개선
7-2. 가치의 이동
제작자는 중요한 통찰을 제시한다. AI 개발에서 가치가 이동하고 있다는 것이다.
과거의 가치: JSON 바디 작성법, HTTP 요청 포맷, 다양한 노드 설정 방법 등 기술적 세부 지식
현재의 가치: 명확한 의사소통 능력, 프로세스에 대한 깊은 이해, 어디에 명시적 설명이 필요한지 파악하는 능력, 도메인 전문 지식
즉, “어떻게 만드는가”보다 “무엇을, 왜, 얼마나 구체적으로 만들어야 하는가”를 아는 것이 더 중요해졌다.
7-3. 실용적 활용 분야
이 기술 스택이 즉시 적용될 수 있는 분야:
- 현장 기술 지원: 장비 매뉴얼 기반 멀티모달 Q&A 시스템
- 건설/부동산: 과거 프로젝트 사진 기반 유사 사례 검색 및 견적
- 의료/법률: 복합 문서(텍스트+이미지) 기반 전문 검색
- 교육: 멀티미디어 학습 자료의 통합 검색
- 리테일: 제품 이미지 + 설명 통합 검색 엔진
- 미디어 아카이브: 영상/음성/텍스트 통합 자산 관리
8. 필요한 도구 및 설정 방법
8-1. 빠른 시작 체크리스트
- Visual Studio Code 설치
- Claude Code 익스텐션 설치 및 유료 계정 로그인
- Pinecone 계정 생성 (Starter 무료)
- Google AI Studio에서 Gemini API 키 발급
- Open Router 계정 생성 및 API 키 발급
- 새 프로젝트 폴더 생성
.env파일에 API 키 3개 입력
8-2. 참고 리소스
| 리소스 | 링크 |
|---|---|
| Pinecone 벡터 DB | https://pinecone.io |
| Google AI Studio | https://aistudio.google.com |
| Open Router | https://openrouter.ai |
| Visual Studio Code | https://code.visualstudio.com |
| Gemini Embeddings API 문서 | https://ai.google.dev/gemini-api/docs/embeddings |
마무리
Gemini Embeddings 2와 Claude Code의 조합은 멀티모달 RAG 개발을 민주화하고 있다. 과거에는 ML 엔지니어링 전문 지식이 필요했던 복잡한 파이프라인이, 이제는 도메인 전문 지식과 명확한 커뮤니케이션 능력만으로 구현 가능해졌다.
기술이 점점 더 자연어로 제어 가능해지는 시대에, 진정한 경쟁 우위는 기술 스택의 숙달이 아니라 문제를 정확히 정의하고 해결 방향을 명확히 제시하는 능력에서 나온다는 것이 이 영상의 궁극적인 메시지다.
본 문서는 Nate Herk의 YouTube 영상(2026.3.12)을 바탕으로 작성된 정리 자료입니다.