샤오미 MiMo-V2-Flash 기술 심층 분석

게시 2025/12/18 업데이트 2026/01/05

By BLUEBUG

47 분읽는 시간

GitHub 저장소로 본 차세대 효율형 AI 모델의 설계 철학

개요

샤오미가 2025년 12월 17일 공개한 MiMo-V2-Flash는 단순한 언어 모델을 넘어 에이전트 워크플로우와 코딩 작업에 특화된 차세대 AI 시스템입니다. 총 309B(3,090억)개의 파라미터를 보유하지만 추론 시에는 15B(150억)만 활성화되는 MoE(Mixture-of-Experts) 구조를 채택하여, 거대 모델의 성능과 경량 모델의 효율성을 동시에 달성했습니다. 샤오미는 이 모델을 Apache 2.0 라이선스로 완전히 오픈소스화했으며, 기술 보고서, 모델 가중치, 추론 코드까지 모두 공개하여 AI 커뮤니티 전체의 발전에 기여하고 있습니다.

1. 모델의 정체성: 효율성과 성능의 새로운 균형

MiMo-V2-Flash는 긴 문맥 처리 능력과 추론 효율성 사이에서 새로운 균형점을 찾아낸 모델입니다. 이 모델의 핵심 특징을 이해하기 위해서는 세 가지 기술적 혁신을 살펴봐야 합니다.

1.1 하이브리드 어텐션 아키텍처: 메모리 절감의 핵심

기존 트랜스포머 모델들은 긴 문맥을 처리할 때 모든 토큰 간의 관계를 계산해야 하기 때문에 연산량이 문맥 길이의 제곱에 비례하여 증가합니다. 이는 특히 128k나 256k 같은 긴 문맥을 처리할 때 GPU 메모리를 급격히 소모시키는 주범이었습니다. MiMo-V2-Flash는 이 문제를 해결하기 위해 로컬 슬라이딩 윈도우 어텐션(SWA)과 글로벌 어텐션(GA)을 5:1 비율로 교차 배치하는 하이브리드 구조를 도입했습니다.

구체적으로 설명하면, 모델은 8개의 하이브리드 블록으로 구성되어 있으며 각 블록은 5개의 슬라이딩 윈도우 어텐션 레이어와 1개의 글로벌 어텐션 레이어를 포함합니다. 슬라이딩 윈도우 레이어는 단 128개 토큰의 윈도우만 사용하는데, 이는 매우 공격적인 설정입니다. 대부분의 다른 모델들이 수천 개의 토큰 윈도우를 사용하는 것과 비교하면 그 차이가 극명합니다. 이렇게 작은 윈도우를 사용하면서도 성능을 유지하는 비결은 ‘학습 가능한 어텐션 싱크 바이어스(learnable attention sink bias)’에 있습니다. 이는 모델이 중요한 정보를 담고 있는 특정 토큰들에 대해 윈도우 밖에서도 접근할 수 있도록 하는 메커니즘입니다.

이러한 구조 덕분에 MiMo-V2-Flash는 KV 캐시 저장 공간을 기존 대비 거의 6배나 줄일 수 있었습니다. 예를 들어, 128k 토큰의 문맥을 처리할 때 일반적인 모델이 120GB의 KV 캐시를 필요로 한다면, MiMo-V2-Flash는 약 20GB만으로 동일한 작업을 수행할 수 있습니다. 이는 단일 GPU로도 긴 문맥 처리가 가능하다는 것을 의미하며, 추론 비용을 획기적으로 낮추는 결과로 이어집니다.

1.2 경량 멀티 토큰 예측: 속도의 혁명

MiMo-V2-Flash의 또 다른 중요한 혁신은 경량 멀티 토큰 예측(Multi-Token Prediction, MTP) 모듈입니다. 전통적인 언어 모델은 한 번에 하나의 토큰만 예측하는 자기회귀(autoregressive) 방식을 사용합니다. 이는 마치 한 글자씩 타이핑하는 것과 같아서, 긴 텍스트를 생성할 때 시간이 오래 걸립니다. 투기적 디코딩(speculative decoding) 같은 기존 해결책들은 별도의 작은 모델을 사용하여 여러 토큰을 미리 예측하고 큰 모델이 이를 검증하는 방식이었지만, 두 모델 간의 조율이 복잡하고 오버헤드가 컸습니다.

MiMo-V2-Flash는 MTP 모듈을 모델 자체에 네이티브로 통합했습니다. 이 모듈은 블록당 0.33B 파라미터만 사용하는 매우 경량 구조로, 밀집 FFN(Feed-Forward Network)과 슬라이딩 윈도우 어텐션을 사용합니다. MoE나 글로벌 어텐션 대신 이러한 단순한 구조를 선택한 이유는 파라미터 수를 최소화하면서도 효과적인 예측을 수행하기 위해서입니다. 이 MTP 모듈은 학습 단계부터 함께 훈련되어, 추론 시에는 자체 투기적 디코딩(self-speculative decoding)을 수행합니다.

결과적으로 MiMo-V2-Flash는 출력 생성 속도를 3배 향상시켰으며, 초당 150개의 토큰을 생성할 수 있습니다. 이는 사용자가 모델의 응답을 거의 실시간으로 읽을 수 있는 수준입니다. 또한 강화학습(RL) 훈련 시 소규모 배치를 처리할 때 GPU가 유휴 상태에 빠지는 문제도 완화시켰습니다. MTP가 여러 토큰을 동시에 예측하므로 GPU가 더 많은 작업을 수행할 수 있기 때문입니다.

1.3 효율적인 사전 학습: FP8과 긴 시퀀스 길이

MiMo-V2-Flash는 27조 개의 토큰으로 사전 학습되었습니다. 이는 GPT-3(300B 토큰)이나 Llama 2(2T 토큰)와 비교하면 상당히 많은 양입니다. 그러나 더 중요한 것은 학습 방식의 효율성입니다. 샤오미 팀은 FP8 혼합 정밀도(mixed precision)를 사용하여 학습을 진행했습니다. FP8은 8비트 부동소수점 연산으로, 기존의 FP16이나 FP32보다 메모리 사용량과 연산량을 크게 줄입니다. 특히 MoE 모델처럼 파라미터 수가 많은 경우, 이러한 정밀도 최적화는 학습 가능 여부를 결정하는 핵심 요소가 됩니다.

또한 학습 시 네이티브로 32k 시퀀스 길이를 사용했습니다. 대부분의 모델들이 짧은 시퀀스로 학습한 후 문맥 길이를 확장하는 것과 달리, MiMo-V2-Flash는 처음부터 긴 문맥을 처리하도록 훈련되었습니다. 이렇게 학습된 모델은 최대 256k 토큰의 문맥 윈도우를 지원하며, 이는 약 500페이지 분량의 문서를 한 번에 처리할 수 있는 수준입니다.

2. 벤치마크 성능: 숫자로 증명된 경쟁력

샤오미는 MiMo-V2-Flash의 성능을 입증하기 위해 광범위한 벤치마크 결과를 공개했습니다. 이를 통해 이 모델이 경쟁 모델들과 어떻게 비교되는지 명확히 알 수 있습니다.

2.1 베이스 모델의 전방위적 우수성

MiMo-V2-Flash-Base는 사후 학습(post-training) 전의 기본 모델로, 이미 이 단계에서 강력한 성능을 보여줍니다. 특히 주목할 점은 15B의 활성 파라미터로 32B나 37B를 활성화하는 경쟁 모델들과 대등하거나 우수한 성능을 낸다는 것입니다.

일반적인 언어 이해 능력을 측정하는 MMLU-Pro에서 73.2%를 기록하여 Kimi-K2 Base(69.2%)와 DeepSeek-V3.1 Base(58.8%)를 크게 앞섰습니다. GPQA-Diamond라는 박사 수준의 과학 지식을 평가하는 까다로운 벤치마크에서는 55.1%를 기록하며 모든 경쟁 모델을 능가했습니다. 이는 단순히 더 많은 데이터를 외우는 것이 아니라, 복잡한 과학적 추론을 수행할 수 있는 능력을 갖추었다는 의미입니다.

수학 능력에서도 GSM8K(92.3%)와 MATH(71.0%)에서 경쟁 모델들과 비슷하거나 더 나은 성적을 보였습니다. 특히 AIME 2024&2025라는 미국 수학 올림피아드 예선 문제에서 35.3%의 정확도를 기록했는데, 이는 Kimi-K2(31.6%)와 DeepSeek-V3.1(21.6%)을 크게 앞선 수치입니다.

코딩 능력은 더욱 인상적입니다. BigCodeBench에서 70.1%를 기록하여 Kimi-K2(61.7%)와 DeepSeek-V3.1(63.0%)을 앞질렀습니다. 특히 SWE-Bench라는 실제 GitHub 이슈를 해결하는 벤치마크에서 AgentLess 방식으로 30.8%를 달성했는데, 이는 DeepSeek-V3.2 Exp가 9.4%에 그친 것과 비교하면 3배 이상 높은 수치입니다.

긴 문맥 처리 능력도 탁월합니다. NIAH-Multi라는 벤치마크는 긴 문서에서 특정 정보를 찾아내는 능력을 측정하는데, MiMo-V2-Flash-Base는 32k에서 99.3%, 64k에서 99.9%, 128k에서 98.6%, 256k에서도 96.7%의 정확도를 유지했습니다. DeepSeek-V3.2 Exp가 128k에서 94.3%로 급격히 떨어지는 것과 대조적입니다.

2.2 사후 학습 모델: SOTA 추론 및 에이전트 성능

사후 학습을 거친 MiMo-V2-Flash는 추론과 에이전트 작업에서 최고 수준(State-of-the-Art, SOTA)의 성능을 달성했습니다. 샤오미 팀은 MOPD(Multi-Teacher On-Policy Distillation)와 대규모 에이전트 강화학습이라는 독특한 사후 학습 패러다임을 적용했으며, 그 결과는 놀랍습니다.

AIME 2025에서 94.1%를 기록하여 GPT-5 High(94.6%)에 근접했으며, GPQA-Diamond에서는 83.7%로 여전히 최상위권을 유지했습니다. LiveCodeBench-v6이라는 최신 코딩 벤치마크에서는 80.6%를 기록했습니다.

에이전트 작업에서 MiMo-V2-Flash의 진가가 발휘됩니다. SWE-Bench Verified에서 73.4%를 기록하여 오픈소스 모델 중 1위를 차지했으며, Claude Sonnet 4.5(77.2%)와 Gemini 3.0 Pro(76.2%)에 근접했습니다. 다국어 버전의 SWE-Bench에서는 71.7%로 GPT-5 High(55.3%)를 크게 앞질렀습니다. 이는 MiMo-V2-Flash가 다양한 프로그래밍 언어와 코드베이스에서도 효과적으로 작동한다는 것을 보여줍니다.

웹 브라우징과 검색을 포함하는 BrowseComp 벤치마크에서는 기본적으로 45.4점을 기록했지만, 컨텍스트 관리를 적용하면 58.3점으로 향상되었습니다. 이는 Kimi-K2 Thinking(60.2점), DeepSeek-V3.2 Thinking(67.6점)과 비교할 때 경쟁력 있는 수치입니다.

2.3 가격 대비 성능: 진정한 게임 체인저

벤치마크 점수 자체도 인상적이지만, 더 중요한 것은 이러한 성능을 달성하는 데 드는 비용입니다. MiMo-V2-Flash의 API 가격은 입력 100만 토큰당 $0.1, 출력 100만 토큰당 $0.3입니다. 이는 DeepSeek-V3.2의 약 절반 수준이며, OpenAI GPT-5나 Anthropic Claude의 약 10분의 1 수준입니다.

예를 들어, 10만 토큰의 문서를 입력하고 1만 토큰의 응답을 받는다면 MiMo-V2-Flash는 $0.013(약 18원)이 듭니다. 같은 작업을 GPT-5로 수행하면 약 $0.15(약 200원)이 들어, 10배 이상 비쌉니다. 이러한 가격 경쟁력은 AI 서비스를 대규모로 배포하는 기업들에게 매우 중요한 요소입니다.

3. 사후 학습의 기술적 하이라이트

MiMo-V2-Flash의 뛰어난 성능은 단순히 큰 모델을 학습시킨 결과가 아닙니다. 샤오미 팀은 혁신적인 사후 학습 파이프라인을 설계하여 추론과 에이전트 능력을 극대화했습니다.

3.1 Multi-Teacher On-Policy Distillation (MOPD): 지식 증류의 재발명

샤오미는 MOPD라는 새로운 패러다임을 도입했습니다. 이는 지식 증류(knowledge distillation)를 강화학습 프로세스로 재구성한 것입니다. 기존의 지식 증류는 교사 모델이 생성한 고정된 데이터셋에서 학생 모델이 학습하는 방식이었습니다. 그러나 이는 교사 모델의 분포와 학생 모델이 실제로 생성하는 분포 사이에 차이가 생기는 ‘노출 편향(exposure bias)’ 문제를 야기했습니다.

MOPD는 이 문제를 해결하기 위해 온폴리시(on-policy) 방식을 채택했습니다. 학생 모델이 자신이 생성한 응답으로부터 학습하는 것입니다. 구체적으로는 도메인별 전문가 모델들(교사)이 학생 모델이 생성하는 각 토큰 위치마다 밀집된 지도를 제공합니다. 이는 시퀀스 레벨의 희소한 피드백에 의존하는 기존 방법들과 달리, 토큰 레벨의 세밀한 안내를 제공합니다.

MOPD의 또 다른 장점은 리워드 해킹(reward hacking)에 대한 자연스러운 저항성입니다. 리워드는 학생과 교사 간의 분포 차이로부터 유도되므로, 모델이 인위적으로 리워드를 조작하기 어렵습니다. 또한 온폴리시 방식이기 때문에 그래디언트 업데이트가 더 작고 안정적입니다. 이는 대규모 MoE 모델을 안정적으로 학습시키는 데 매우 중요한 요소입니다.

3.2 대규모 에이전트 강화학습: 실전 환경에서의 학습

샘플 에이전트 학습 환경의 규모를 크게 확장한 것도 MiMo-V2-Flash의 성공 요인입니다. 대부분의 AI 모델들이 합성 데이터나 제한된 환경에서 학습하는 것과 달리, 샤오미는 실제 세계의 복잡성을 반영하는 대규모 환경을 구축했습니다.

대규모 코드 에이전트 환경 샤오미 팀은 실제 GitHub 이슈를 활용하여 10만 개 이상의 검증 가능한 작업을 생성했습니다. 이는 단순한 코딩 퀴즈가 아니라 실제 소프트웨어 개발에서 발생하는 복잡한 문제들입니다. 이러한 환경을 운영하기 위해 쿠버네티스 클러스터를 구축했으며, 동시에 1만 개 이상의 Pod를 실행할 수 있습니다. 환경 설정 성공률은 70%로, 이는 매우 높은 수준입니다.

멀티모달 검증기 웹 개발 작업의 경우, 샤오미는 비전 기반 검증기를 개발했습니다. 이는 정적인 스크린샷 대신 실제 코드 실행을 녹화한 비디오를 평가합니다. 이를 통해 시각적 환각(visual hallucination)을 줄이고 기능적 정확성을 보장합니다. 예를 들어, 버튼을 클릭했을 때 실제로 원하는 동작이 수행되는지를 확인하는 것입니다.

도메인 간 일반화 흥미롭게도 실험 결과는 코드 에이전트에 대한 대규모 강화학습이 다른 도메인으로도 효과적으로 일반화된다는 것을 보여줍니다. 코드 작성 능력을 향상시키면 수학 문제 해결 능력과 일반 에이전트 작업 성능도 함께 향상되었습니다. 이는 코드가 구조화된 추론을 학습하는 효과적인 매개체임을 시사합니다.

3.3 고급 강화학습 인프라: 효율성의 극대화

대규모 MoE 모델에 대한 고처리량 강화학습을 지원하기 위해, 샤오미 팀은 SGLang과 Megatron-LM을 기반으로 여러 인프라 최적화를 구현했습니다.

Rollout Routing Replay (R3) MoE 모델의 특성상 추론 시와 학습 시 라우팅(어떤 전문가를 활성화할지 결정)에서 수치적 정밀도 불일치가 발생할 수 있습니다. R3는 롤아웃(추론) 단계에서 라우팅된 정확한 전문가들을 재사용하여 학습 단계의 일관성을 보장합니다. 오버헤드는 거의 없으면서도 안정성을 크게 향상시킵니다.

요청 레벨 프리픽스 캐시 다회차 에이전트 학습에서 이전 대화 턴의 KV 상태와 라우팅된 전문가들을 캐시에 저장합니다. 이는 재계산을 피하고 여러 턴에 걸쳐 샘플링 일관성을 보장합니다. 예를 들어, 10회차 대화에서 매번 처음부터 다시 계산하는 대신, 이전 9개 턴의 계산 결과를 재사용할 수 있습니다.

세분화된 데이터 스케줄러 롤아웃 엔진을 확장하여 마이크로 배치 대신 세분화된 시퀀스를 스케줄링합니다. 부분 롤아웃(partial rollout)과 결합하면 긴 작업으로 인한 GPU 유휴 시간을 크게 줄일 수 있습니다. 이는 강화학습에서 매우 중요한데, 일부 작업은 매우 길고 다른 작업은 짧아서 전체 배치가 가장 긴 작업을 기다려야 하는 문제가 있기 때문입니다.

도구 상자 및 도구 관리자 Ray 액터 풀을 사용하는 2계층 설계로 리소스 경합을 처리합니다. 도구 실행의 콜드 스타트 지연을 제거하고 작업 로직과 시스템 정책을 분리합니다. 예를 들어, 웹 브라우저나 터미널 같은 도구들을 미리 준비해두어 에이전트가 즉시 사용할 수 있게 합니다.

4. 추론 및 배포: 실전 활용 가이드

샤오미는 MiMo-V2-Flash를 쉽게 배포하고 사용할 수 있도록 상세한 가이드를 제공합니다.

4.1 SGLang을 통한 빠른 시작

MiMo-V2-Flash는 FP8 혼합 정밀도 추론을 지원하며, 최적의 성능을 위해 SGLang 사용을 권장합니다. SGLang은 LLM 서빙을 위한 고성능 엔진으로, 샤오미 팀은 MiMo-V2-Flash에 최적화된 특별 버전을 제공합니다.

설치는 간단합니다. 먼저 호환되는 SGLang 버전을 설치합니다. 샤오미가 제공하는 특정 버전(0.5.6.post2.dev8005+pr.15207.g39d5bd57a)을 사용하는 것이 중요한데, 이 버전에는 MiMo-V2-Flash의 MTP 및 하이브리드 어텐션을 지원하는 커스텀 커널이 포함되어 있기 때문입니다.

서버 실행 시 여러 중요한 설정들이 있습니다. SGLANG_ENABLE_SPEC_V2=1 환경 변수는 MTP 기반의 투기적 디코딩을 활성화합니다. 파이프라인 병렬성(pp-size), 데이터 병렬성(dp-size), 텐서 병렬성(tp-size)을 적절히 설정하여 여러 GPU에 모델을 분산시킬 수 있습니다. 예제에서는 8개의 GPU에 텐서를 분할하고(tp-size 8), 2개의 데이터 병렬 인스턴스를 실행합니다(dp-size 2).

MoE 모델 특유의 설정도 있습니다. moe-a2a-backend를 deepep로 설정하면 MoE 통신을 최적화합니다. enable-mtp 플래그는 멀티 토큰 예측을 활성화하고, speculative-* 옵션들은 EAGLE 스타일의 투기적 디코딩 파라미터를 조정합니다.

메모리 관리도 중요합니다. mem-fraction-static을 0.75로 설정하면 GPU 메모리의 75%를 모델 가중치와 KV 캐시에 할당하고 나머지는 연산에 사용합니다. max-running-requests와 chunked-prefill-size는 동시에 처리할 수 있는 요청 수와 입력 청크 크기를 조절합니다.

컨텍스트 길이는 최대 262,144 토큰까지 지원하며, attention-backend로 fa3(FlashAttention 3)를 사용하여 어텐션 연산을 가속화합니다.

4.2 시스템 프롬프트: 필수 설정

샤오미는 시스템 프롬프트 사용을 강력히 권장합니다. 영어 버전은 “You are MiMo, an AI assistant developed by Xiaomi. Today’s date: {date} {week}. Your knowledge cutoff date is December 2024.”이고, 한국어 버전은 “당신은 샤오미가 개발한 AI 어시스턴트 MiMo입니다. 오늘 날짜: {date} {week}. 지식 컷오프 날짜는 2024년 12월입니다.”입니다.

이 프롬프트가 중요한 이유는 모델의 정체성과 맥락을 명확히 하기 때문입니다. 날짜 정보는 “오늘”, “어제” 같은 시간 참조를 올바르게 해석하는 데 필요하고, 지식 컷오프는 모델이 최신 정보에 대해 확신을 가지지 않도록 합니다.

4.3 샘플링 파라미터: 작업별 최적화

샤오미는 작업 유형에 따라 다른 샘플링 파라미터를 권장합니다. top_p는 항상 0.95로 설정하여 누적 확률 상위 95%의 토큰만 고려합니다. temperature는 작업에 따라 조절하는데, 수학 문제, 글쓰기, 웹 개발에는 0.8을 사용하여 창의성을 높이고, 에이전트 작업(vibe-coding, tool-use 등)에는 0.3을 사용하여 더 결정론적이고 안정적인 출력을 얻습니다.

4.4 도구 사용 실습: 멀티턴 대화의 핵심

MiMo-V2-Flash의 강점 중 하나는 도구 사용(tool-use) 능력입니다. 사고 모드(thinking mode)에서 멀티턴 도구 호출을 수행할 때, 모델은 tool_calls와 함께 reasoning_content 필드를 반환합니다. 이 reasoning_content는 모델의 내부 사고 과정을 담고 있으며, 대화를 계속하려면 이를 다음 요청의 messages 배열에 포함시켜야 합니다.

예를 들어, 모델이 “날씨를 확인하기 위해 먼저 현재 위치를 알아야 한다”는 reasoning_content와 함께 get_location 도구를 호출했다면, 사용자는 이 reasoning_content를 유지한 채 위치 정보를 제공해야 합니다. 그래야 모델이 자신의 이전 사고 흐름을 기억하고 일관된 대화를 이어갈 수 있습니다.

5. 오픈소스 전략: 투명성과 협력

샤오미의 MiMo-V2-Flash 오픈소스 전략은 중국 AI 업계의 새로운 트렌드를 보여줍니다.

5.1 Apache 2.0 라이선스: 상업적 활용 자유

MiMo-V2-Flash는 Apache 2.0 라이선스로 공개되었습니다. 이는 MIT 라이선스와 유사하게 매우 관대한 라이선스로, 상업적 사용, 수정, 배포가 모두 자유롭습니다. 기업들은 이 모델을 자사 제품에 통합하거나 수정하여 사용할 수 있으며, 소스 코드 공개 의무도 없습니다.

이는 딥시크의 MIT 라이선스 전통을 이어받은 것으로, 중국 AI 기업들이 오픈소스를 통해 생태계를 구축하려는 전략을 반영합니다. 폐쇄적인 미국 모델들에 대항하여 개방성으로 경쟁하는 것입니다.

5.2 완전한 투명성: 코드, 가중치, 논문

샤오미는 모델 가중치뿐만 아니라 기술 보고서(paper.pdf)와 추론 코드까지 모두 공개했습니다. 647개의 스타와 19개의 포크를 받은 GitHub 저장소는 활발한 커뮤니티 참여를 보여줍니다.

특히 주목할 점은 3층 MTP 가중치까지 오픈소스화했다는 것입니다. 이는 연구 커뮤니티가 멀티 토큰 예측 기술을 연구하고 개선할 수 있도록 하려는 의도입니다. 대부분의 기업들이 핵심 기술을 비공개로 유지하는 것과 대조적입니다.

5.3 커뮤니티 지원: 위챗 그룹과 이메일

샤오미는 4개의 위챗 그룹 QR 코드를 제공하여 중국 개발자 커뮤니티와 직접 소통합니다. mimo@xiaomi.com이라는 전용 이메일 주소도 운영하고 있어, 전 세계 개발자들이 질문하고 피드백을 제공할 수 있습니다.

이러한 적극적인 커뮤니티 참여는 단순히 모델을 공개하는 것을 넘어, 생태계를 육성하려는 장기적 전략을 보여줍니다. 커뮤니티의 피드백과 기여를 통해 모델이 지속적으로 개선될 수 있기 때문입니다.

6. 전략적 의미와 미래 전망

MiMo-V2-Flash는 단순한 기술적 성과를 넘어 여러 전략적 의미를 담고 있습니다.

6.1 효율성 vs 규모: 새로운 경쟁 축

MiMo-V2-Flash는 “더 큰 모델이 항상 더 좋다”는 통념에 도전합니다. 15B의 활성 파라미터로 32B나 37B를 사용하는 모델들과 경쟁하거나 능가하는 것은, 아키텍처 혁신이 단순한 규모 확장보다 중요할 수 있음을 보여줍니다.

이는 특히 하드웨어 제약이 있는 환경에서 중요합니다. 중국이 엔비디아 최신 GPU에 대한 접근이 제한된 상황에서, 효율적인 아키텍처는 생존의 문제입니다. 샤오미의 성공은 “소프트웨어로 하드웨어 격차를 극복할 수 있다”는 것을 입증합니다.

6.2 에이전트 AI의 부상

MiMo-V2-Flash가 SWE-Bench에서 오픈소스 모델 중 1위를 차지한 것은 우연이 아닙니다. 샤오미는 처음부터 에이전트 워크플로우를 염두에 두고 모델을 설계했습니다. 멀티턴 대화, 도구 사용, 코드 생성 및 실행, 웹 브라우징 등 에이전트에 필요한 모든 기능이 통합되어 있습니다.

이는 AI의 다음 단계가 단순한 질의응답을 넘어 복잡한 작업을 자율적으로 수행하는 에이전트로 진화하고 있음을 시사합니다. 샤오미는 이러한 트렌드를 선도하고 있습니다.

6.3 “Human-Car-Home” 생태계로의 통합

뤄푸리가 밝힌 대로, MiMo-V2-Flash는 샤오미의 “Human x Car x Home” 생태계에 통합될 예정입니다. 저렴한 API 비용과 빠른 추론 속도는 수천만 대의 샤오미 기기에서 AI를 구동하기 위한 필수 조건입니다.

자동차(SU7)의 센서 데이터를 분석하고, 로봇(CyberDog)에게 명령을 내리고, 스마트 홈 기기들을 조율하는 통합 지능 시스템을 구축하려면, 클라우드와 엣지에서 모두 효율적으로 작동하는 모델이 필요합니다. MiMo-V2-Flash는 바로 이를 위해 설계되었습니다.

6.4 엠바디드 AI로의 진화

뤄푸리는 “지능은 언어에서 물리 세계로 이동할 것”이라고 말했습니다. MiMo-V2-Flash는 이러한 비전의 첫 단계입니다. 텍스트와 코드를 다루는 현재 버전에서, 센서 데이터와 로봇 제어를 통합하는 멀티모달 엠바디드 AI로 진화할 것입니다.

샤오미가 별도로 공개한 MiMo-Embodied 모델은 자율주행과 실내 로봇 지능을 하나의 프레임워크로 통합했습니다. 앞으로 MiMo-V2-Flash와 MiMo-Embodied가 긴밀히 협력하여, 클라우드에서는 전략적 판단을, 엣지에서는 실시간 제어를 수행하는 이원화 지능 시스템이 완성될 것입니다.

7. 한국에 주는 시사점

MiMo-V2-Flash의 성공은 한국 AI 산업에도 중요한 교훈을 제공합니다.

7.1 효율성 연구의 전략적 중요성

한국은 미국처럼 무제한 GPU를 확보할 수도 없고, 중국처럼 거대한 내수시장도 없습니다. 따라서 효율성 중심의 아키텍처 혁신이 더욱 중요합니다. MLA나 하이브리드 어텐션 같은 기술은 제한된 자원으로 최대 효과를 내는 방법을 보여줍니다.

삼성전자와 SK하이닉스가 메모리 반도체에서 세계 1위인 것을 활용하여, 메모리 효율적인 AI 아키텍처를 연구하는 것도 좋은 전략입니다. 예를 들어, HBM(High Bandwidth Memory)에 최적화된 어텐션 메커니즘을 개발할 수 있습니다.

7.2 수직 통합의 기회

삼성전자는 스마트폰(갤럭시), 가전(삼성전자), 반도체(삼성 파운드리), 디스플레이까지 보유하고 있어 샤오미보다 더 강력한 수직 통합 잠재력을 가지고 있습니다. 현대자동차도 전기차, 로봇(Boston Dynamics 인수), UAM까지 다양한 하드웨어 플랫폼을 갖추고 있습니다.

이러한 하드웨어 자산에 효율적인 AI 모델을 통합한다면, 샤오미의 “Human x Car x Home”과 유사하거나 더 포괄적인 생태계를 구축할 수 있습니다. 핵심은 각 하드웨어에 최적화된 AI를 개발하고, 이들이 seamless하게 협력하도록 만드는 것입니다.

7.3 오픈소스 전략의 재고

한국 기업들은 전통적으로 독점 전략을 선호해왔습니다. 그러나 MiMo-V2-Flash와 딥시크의 사례는 오픈소스가 생태계 구축과 인재 확보에 효과적일 수 있음을 보여줍니다. 특히 글로벌 개발자 커뮤니티를 끌어들이는 데는 오픈소스만한 것이 없습니다.

전략적 오픈소스 접근을 고려할 수 있습니다. 기초 모델은 오픈소스로 공개하여 생태계를 구축하고, 특화된 응용이나 하드웨어 통합은 독점으로 유지하여 수익을 창출하는 방식입니다. 이는 Android를 오픈소스로 공개하되 Pixel 폰으로 수익을 내는 구글의 전략과 유사합니다.

7.4 인재 확보 및 유지

뤄푸리가 연봉 1,000만 위안에 영입된 것처럼, AI 인재 경쟁은 치열합니다. 한국도 경쟁력 있는 보상과 함께 연구자들이 자신의 성과를 실제 제품으로 만들 수 있는 환경을 제공해야 합니다.

특히 중요한 것은 연구자를 과도한 미디어 노출로부터 보호하는 것입니다. 뤄푸리가 “평화를 빕니다”라고 호소했던 것처럼, 연구자들은 조용히 연구에 집중할 수 있는 환경을 원합니다. 스타 과학자를 만들려는 조급함보다는, 그들이 최고의 연구를 할 수 있는 조건을 만들어주는 것이 더 중요합니다.

결론: 효율성 혁명의 시작

MiMo-V2-Flash는 AI 개발의 새로운 패러다임을 제시합니다. “더 크고, 더 많은 데이터를, 더 많은 GPU로”라는 무한 확장 경쟁에서 벗어나, “더 똑똑한 아키텍처로 더 적은 자원으로”라는 효율성 경쟁으로의 전환을 보여줍니다.

하이브리드 어텐션으로 KV 캐시를 6배 줄이고, 멀티 토큰 예측으로 속도를 3배 높이고, MOPD로 사후 학습을 혁신하고, 대규모 에이전트 환경에서 실전 능력을 키운 이 모델은, 단순히 좋은 벤치마크 점수를 넘어 실제로 사용 가능하고 배포 가능한 AI 시스템의 청사진을 제시합니다.

뤄푸리와 샤오미 팀이 딥시크에서 시작한 효율성 혁명은 이제 물리 세계로 확장되고 있습니다. 자동차, 로봇, 스마트폰, 가전이 하나의 지능으로 연결되는 미래에서, MiMo-V2-Flash는 그 중추 신경계의 역할을 할 것입니다.

그리고 이 모든 것이 오픈소스로 공개되어, 전 세계 개발자들이 함께 발전시킬 수 있다는 점이 가장 희망적입니다. AI의 미래는 소수의 빅테크가 독점하는 것이 아니라, 효율성과 개방성을 무기로 한 혁신가들이 함께 만들어가는 것임을 MiMo-V2-Flash는 보여주고 있습니다.

참고 자료

공식 리소스

GitHub 저장소: https://github.com/XiaomiMiMo/MiMo-V2-Flash
HuggingFace 모델: https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
기술 보고서: paper.pdf (저장소 내)
공식 블로그: https://mimo.xiaomi.com/blog/mimo-v2-flash
MiMo Studio: https://aistudio.xiaomimimo.com
API 플랫폼: https://platform.xiaomimimo.com/

인용

MiMo-V2-Flash를 연구나 프로젝트에 사용할 경우 다음과 같이 인용하세요:

  
  title={MiMo-V2-Flash Technical Report},
  author={LLM-Core Xiaomi},
  year={2025},
  url={https://github.com/XiaomiMiMo/MiMo-V2-Flash/paper.pdf}
}

문의

이메일: mimo@xiaomi.com
GitHub Issues: https://github.com/XiaomiMiMo/MiMo-V2-Flash/issues
위챗 커뮤니티: 저장소의 위챗 그룹 QR 코드 참조

문서 작성 일자: 2025-12-18

라이선스: 본 분석 문서는 원본 GitHub 저장소의 Apache 2.0 라이선스를 따릅니다.

면책 조항: 본 문서는 공개된 GitHub 저장소와 기술 보고서를 바탕으로 작성된 독립적인 기술 분석이며, 샤오미의 공식 문서가 아닙니다.

AI, Model

AI Model LLM open-source-model MiMo Xiaomi Claude.write