๐ ์์ด์ ํฑ ์คํฌ์ ์ค์ ํ๊ฒฝ์์ ์ผ๋ง๋ ์ ์๋ํ๋๊ฐ?
์์ : How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings
์ ์: Yujian Liu, Jiabao Ji, Li An, Tommi Jaakkola, Yang Zhang, Shiyu Chang
์์: UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab
๊ฒ์ฌ: arXiv:2604.04323v1 (2026๋ 4์ 6์ผ)
์ฝ๋: https://github.com/UCSB-NLP-Chang/Skill-Usage
๋ชฉ์ฐจ
- ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋๊ธฐ
- ํต์ฌ ๋ฌธ์ ์ ๊ธฐ
- ์ฃผ์ ์ฉ์ด ์ ์
- ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก ์ ์ฒด ๊ตฌ์กฐ
- ์คํฌ ์ปฌ๋ ์ ๊ตฌ์ถ
- ์คํฌ ๊ฒ์ ์์ง ์ค๊ณ
- ๋จ๊ณ์ ํ๊ฐ ์ค์ (Progressive Evaluation)
- ํต์ฌ ์คํ ๊ฒฐ๊ณผ ๋ถ์
- ์คํฌ ์ ์ ์ ๋ต
- ์ ์ ๊ฒฐ๊ณผ ๋ฐ ํจ๊ณผ
- Terminal-Bench 2.0 ์ผ๋ฐํ ๊ฒ์ฆ
- ๊ด๋ จ ์ฐ๊ตฌ ์ํ๊ณ
- ๊ฒฐ๋ก ๋ฐ ์์ฌ์
- ์ค๋ฌด ์ ์ฉ ๊ด์ ๋ถ์
- ์ฐ๊ตฌ์ ํ๊ณ์ ํฅํ ๊ณผ์
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋๊ธฐ
1.1 LLM ์์ด์ ํธ์ ๋ถ์
2026๋ ํ์ฌ, LLM(๋ํ ์ธ์ด ๋ชจ๋ธ) ๊ธฐ๋ฐ ์์ด์ ํธ๋ ์ํํธ์จ์ด ๊ฐ๋ฐ, ๋ฐ์ดํฐ ๋ถ์, ๋ณต์กํ ์ํฌํ๋ก์ฐ ์๋ํ ๋ฑ ๋ค์ํ ์์ญ์์ ์ค์ง์ ์ธ ๋ณํ๋ฅผ ์ด๋๊ณ ์๋ค. Claude Code, OpenAI Codex, Google Gemini CLI ๊ฐ์ ๋๊ตฌ๋ค์ด ์ด ๋ณํ์ ์ค์ฌ์ ์์ผ๋ฉฐ, ์ด๋ฌํ ์์ด์ ํธ๋ค์ด ๋ณด๋ค ์ ๋ฌธํ๋ ์ญํ ์ ์ํํ ์ ์๋๋ก ํ๋ ๋ฉ์ปค๋์ฆ์ผ๋ก์ ์์ด์ ํฑ ์คํฌ(Agentic Skills) ์ด ๊ธ์๋๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค.
์คํฌ์ด๋ ๋๋ฉ์ธ ํนํ ์ง์์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ํํ๋ก ํจํค์งํ ์ง์ ์ํฐํฉํธ๋ก, ํน์ API ์ฌ์ฉ ํจํด, ์ฝ๋ฉ ์ปจ๋ฒค์ , ๋๋ฉ์ธ๋ณ ์ํฌํ๋ก์ฐ, ๋ชจ๋ฒ ์ฌ๋ก ๋ฑ์ ๊ตฌ์กฐํํ์ฌ ๋ด๊ณ ์๋ค. Anthropic์ด ํ์ค ํฌ๋งท์ ์ ์ํ ์ดํ skillhub.club, skills.sh ๊ฐ์ ์คํฌ ์ง๊ณ ํ๋ซํผ์ด ๋ฑ์ฅํ๊ณ , ์คํ์์ค ์ปค๋ฎค๋ํฐ์์ ์๋ง ๊ฐ์ ์คํฌ์ด ๊ณต์ ๋๋ ์ํ๊ณ๊ฐ ํ์ฑ๋์๋ค.
1.2 ์ ์ง๊ธ ์ด ์ฐ๊ตฌ๊ฐ ํ์ํ๊ฐ
์คํฌ์ ๊ด๋ฒ์ํ ์ฑํ์๋ ๋ถ๊ตฌํ๊ณ , ์คํฌ์ด ์ค์ ๋ก ์์ด์ ํธ์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํฅ์์ํค๋์ง์ ๋ํ ์๋ฐํ ํ๊ฐ๋ ๋๋๋๋ก ๋ถ์กฑํ๋ค. ๊ธฐ์กด ๋ฒค์น๋งํฌ์ธ SkillsBench(Li et al., 2026)๊ฐ ์คํฌ์ ํจ๊ณผ๋ฅผ ์ฒ์์ผ๋ก ์ ๋ํํ๋ ค ํ์ง๋ง, ๊ทธ ์ค๊ณ ๋ฐฉ์์๋ ํ์ค๊ณผ ๋๋จ์ด์ง ์ฌ๊ฐํ ๊ฐ์ ์ด ๋ดํฌ๋์ด ์์๋ค.
์ด ๋ ผ๋ฌธ์ ๋ฐ๋ก ๊ทธ ๊ฐ๊ทน์ ๋ฉ์ฐ๊ธฐ ์ํด ๋ฑ์ฅํ๋ค. โ์ด์์ ์ธ ์กฐ๊ฑดโ์ด ์๋, ์ค์ ์ด์ ํ๊ฒฝ์์ ์คํฌ์ด ์ผ๋ง๋ ๋์์ด ๋๋์ง๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ธก์ ํ๊ณ ์ ํ ๊ฒ์ด๋ค.
2. ํต์ฌ ๋ฌธ์ ์ ๊ธฐ
2.1 ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ๋ ๊ฐ์ง ๊ทผ๋ณธ์ ๋ฌธ์
๊ธฐ์กด SkillsBench์ ํ๊ฐ ๋ฐฉ์์ ๋ ๊ฐ์ง ์ธก๋ฉด์์ ํ์ค๊ณผ ๋๋จ์ด์ ธ ์์๋ค.
๋ฌธ์ โ : ์คํฌ์ด ํ์คํฌ์ ๊ณผ์ ํฉ(overfit)๋์ด ์์
SkillsBench์์ ์ฌ์ฉํ๋ ์คํฌ๋ค์ ๊ฐ ํ๊ฐ ํ์คํฌ์ ๋ง๊ฒ ์์์ ์ผ๋ก ์ ์๋, ์ฌ์ค์ โ์ ๋ต ๊ฐ์ด๋โ์ ๊ฐ๊น์ด ๊ฒ๋ค์ด๋ค. ์๋ฅผ ๋ค์ด USGS ๊ธฐ์ ๊ด์ธก์์ ํ์ ์ผ์๋ฅผ ๊ณ์ฐํ๋ ํ์คํฌ์๋ ๋ค์๊ณผ ๊ฐ์ ์ธ ๊ฐ์ ์คํฌ์ด ์ ๊ณต๋๋ค.
- USGS API์์ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ค์ด๋ก๋ํ๋ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ ๋ด์ ์คํฌ
- NWS(๋ฏธ๊ตญ ๊ธฐ์์ฒญ) ํ์ ์๊ณ๊ฐ ๋ฐ์ดํฐ์ ์ ํํ URL์ ๋ด์ ์คํฌ
- ํ์ ์ผ์๋ฅผ ๊ณ์ฐํ๋ ์ฝ๋ ์ค๋ํซ์ ๋ด์ ์คํฌ
์ด ์ธ ๊ฐ์ง๋ฅผ ํฉ์น๋ฉด ์ฌ์ค์ ํ์คํฌ์ ํ์ด ๋ฐฉ๋ฒ ์ ์ฒด๊ฐ ๊ณต๊ฐ๋๋ ์ ์ด๋ค. ์ด๋ โ์คํฌ์ด ๋์์ด ๋๋๊ฐโ๋ฅผ ์ธก์ ํ๋ ๊ฒ์ด ์๋๋ผ, โ์ ๋ต์ง๊ฐ ์ฃผ์ด์ก์ ๋ ์์ด์ ํธ๊ฐ ์ ๋ฐ๋ผ ํ๋๊ฐโ๋ฅผ ์ธก์ ํ๋ ๊ฒ์ ๋ถ๊ณผํ๋ค.
๋ฌธ์ โก: ์คํฌ์ด ๋ฏธ๋ฆฌ ์์ด์ ํธ ์ปจํ ์คํธ์ ์ฃผ์ ๋จ
ํ์ค์์ ์์ด์ ํธ๋ ์๋ง์ ์คํฌ ์ ์ฅ์ ์ค์์ ์์ ์๊ฒ ํ์ํ ์คํฌ์ ์ค์ค๋ก ์ฐพ์์ผ ํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ๊ด๋ จ ์คํฌ์ ์์ด์ ํธ์ ์ปจํ ์คํธ์ ์ด๋ฏธ ๋ฃ์ด๋๋ ๋ฐฉ์์ผ๋ก, ์ค์ ๊ฒ์ ๊ณผ์ ์ ์ด๋ ค์์ ์์ ํ ๋ฌด์ํ๊ณ ์์๋ค.
2.2 ํต์ฌ ์ฐ๊ตฌ ์ง๋ฌธ
์คํฌ์ด ํ์ค์ ์ธ ์กฐ๊ฑด, ์ฆ ์์ด์ ํธ๊ฐ ๋๊ท๋ชจ ๋ ธ์ด์ฆ ํ์์ ์คํฌ์ ์ง์ ๊ฒ์ํด์ผ ํ๊ณ , ํ์คํฌ์ ํนํ๋์ง ์์ ๋ฒ์ฉ ์คํฌ๋ง ์ฌ์ฉํ ์ ์์ ๋์๋ ๋์์ด ๋๋๊ฐ?
3. ์ฃผ์ ์ฉ์ด ์ ์
์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํด ํต์ฌ ์ฉ์ด๋ค์ ๋ช ํํ ์ ์ํ๋ค.
| ์ฉ์ด | ์ ์ |
|---|---|
| ์์ด์ ํฑ ์คํฌ (Agentic Skill) | SKILL.md ํ์ผ๊ณผ ์ ํ์ ๋ณด์กฐ ํ์ผ๋ก ๊ตฌ์ฑ๋ ํ์ผ์์คํ ๊ธฐ๋ฐ ์ง์ ์ํฐํฉํธ. ๋๋ฉ์ธ ํนํ ์ํฌํ๋ก์ฐ, API ์ฌ์ฉ๋ฒ, ์ฝ๋ฉ ํจํด ๋ฑ์ ๊ตฌ์กฐํํ์ฌ ๋ด์ |
| ์คํฌ ์ ํ (Skill Selection) | ์ ๊ณต๋ ์คํฌ ๋ชฉ๋ก ์ค ํ์ฌ ํ์คํฌ์ ์ ์ฉํ ์คํฌ์ ์์ด์ ํธ๊ฐ ์ค์ค๋ก ํ๋จํ์ฌ ๋ก๋ํ๋ ํ์ |
| ์คํฌ ๊ฒ์ (Skill Retrieval) | ๋๊ท๋ชจ ์คํฌ ์ ์ฅ์์์ ํ์ฌ ํ์คํฌ์ ๊ด๋ จ์ฑ ๋์ ์คํฌ์ ์ฐพ์๋ด๋ ํ์ |
| ์คํฌ ์ ์ (Skill Adaptation) | ํ์คํฌ์ ๋ง์ถคํ๋์ง ์์ ๋ฒ์ฉ ์คํฌ์์ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ ํ์ฉํ๋ ํ์ |
| Pass Rate | ์์ด์ ํธ๊ฐ ์ฃผ์ด์ง ํ์คํฌ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์๋ฃํ ๋น์จ |
| Recall@k | ๊ฒ์๋ ์์ k๊ฐ ๊ฒฐ๊ณผ ์ค ์ ๋ต ์คํฌ์ด ํฌํจ๋ ๋น์จ |
| ์ฟผ๋ฆฌ ํนํ ์ ์ (Query-specific Refinement) | ํ์ฌ ํ์คํฌ๋ฅผ ์ง์ ํ์ํ ํ ์คํฌ์ ๊ฐ์ ํ๋ ์ ๋ต |
| ์ฟผ๋ฆฌ ๋ถ๊ฐ์ง์ ์ ์ (Query-agnostic Refinement) | ํ์คํฌ ์ ๋ณด ์์ด ์คํ๋ผ์ธ์ผ๋ก ์คํฌ์ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ ํ๋ ์ ๋ต |
4. ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก ์ ์ฒด ๊ตฌ์กฐ
์ด ์ฐ๊ตฌ์ ์ ์ฒด ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ์ด ์์ฝํ ์ ์๋ค.
flowchart TD
A[์ฐ๊ตฌ ์์: ํ์ค์ ์กฐ๊ฑด์์ ์คํฌ ์ ์ฉ์ฑ ์ธก์ ] --> B[34k ์ค์ธ๊ณ ์คํฌ ์ปฌ๋ ์
๊ตฌ์ถ]
B --> C[์คํฌ ๊ฒ์ ์์ง ๊ฐ๋ฐ]
C --> D{๊ฒ์ ๋ฐฉ๋ฒ ๋น๊ต}
D --> D1[ํค์๋ ๊ฒ์ BM25]
D --> D2[์๋งจํฑ ๊ฒ์ Dense Embedding]
D --> D3[ํ์ด๋ธ๋ฆฌ๋ ๊ฒ์ RRF]
D --> D4[์์ด์ ํฑ ๊ฒ์ ๋ฐ๋ณต ํ์]
D4 --> E[๋จ๊ณ์ ํ๊ฐ ์ค์ Progressive Evaluation]
E --> E1[ํ๋ ์ด์
์คํฌ + ๊ฐ์ ๋ก๋]
E --> E2[ํ๋ ์ด์
์คํฌ]
E --> E3[ํ๋ ์ด์
+ ๋ฐฉํด ์คํฌ]
E --> E4[๊ฒ์ ๋ฐฉ์ - ํ๋ ์ด์
ํฌํจ]
E --> E5[๊ฒ์ ๋ฐฉ์ - ํ๋ ์ด์
์ ์ธ]
E --> E6[์คํฌ ์์ baseline]
E5 --> F{์ฑ๋ฅ ์ ํ ํ์ธ}
F --> G[์คํฌ ์ ์ ์ ๋ต ์ฐ๊ตฌ]
G --> G1[์ฟผ๋ฆฌ ํนํ ์ ์ Query-specific]
G --> G2[์ฟผ๋ฆฌ ๋ถ๊ฐ์ง์ ์ ์ Query-agnostic]
G1 --> H[Terminal-Bench 2.0 ์ผ๋ฐํ ๊ฒ์ฆ]
G2 --> H
H --> I[์ต์ข
๊ฒฐ๋ก ๋ฐ ์์ฌ์ ]
5. ์คํฌ ์ปฌ๋ ์ ๊ตฌ์ถ
5.1 ๋ฐ์ดํฐ ์ถ์ฒ ๋ฐ ํํฐ๋ง
๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ๋ฐ ์ค ํ๋๋ 34,198๊ฐ์ ์ค์ธ๊ณ ์คํฌ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ์ปฌ๋ ์ ์ ๊ตฌ์ถ์ด๋ค. ์ด ์ปฌ๋ ์ ์ ๋ ๊ฐ์ ์คํฌ ์ง๊ณ ํ๋ซํผ์ธ skillhub.club๊ณผ skills.sh์์ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ์์งํ ํ, ๊ฐ ์คํฌ์ ์๋ณธ GitHub ์ ์ฅ์์์ SKILL.md ํ์ผ๊ณผ ๋ณด์กฐ ํ์ผ ์ ์ฒด๋ฅผ ๋ค์ด๋ก๋ํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌ์ฑ๋์๋ค.
์์ง๋ ์คํฌ๋ค์ ๋ค์ ์ธ ๊ฐ์ง ๊ธฐ์ค์ผ๋ก ํํฐ๋ง๋์๋ค.
์ฒซ์งธ, ๋ผ์ด์ ์ค ์กฐ๊ฑด: MIT ๋๋ Apache 2.0 ๊ฐ์ ํ์ฉ์ ์คํ์์ค ๋ผ์ด์ ์ค๋ฅผ ๊ฐ์ง ์คํฌ๋ง ํฌํจํ์ฌ ์ฌ๋ฐฐํฌ ๊ถ๋ฆฌ๋ฅผ ํ๋ณดํ๋ค. ์ด ๊ธฐ์ค์ ์ฐ๊ตฌ ์ค๋ฆฌ ์ธก๋ฉด์์๋ ์ค์ํ๋ค.
๋์งธ, ํ์ ํ์ง: ์คํฌ ์ด๋ฆ์ด๋ ์ค๋ช ์ด ๋น์ด ์๋ ์๋ชป๋ ํ์์ ์คํฌ์ ์ ์ธํ๋ค. ๋ฉํ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์์ ์คํฌ์ ๊ฒ์ ์์ง์ ์ฑ๋ฅ์ ์ ํ์ํฌ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ ์งธ, ์ค๋ณต ์ ๊ฑฐ: ํ์ผ ๋ด์ฉ ๊ธฐ์ค์ผ๋ก ์ค๋ณต๋ ์คํฌ์ ์ ๊ฑฐํ๋ค. ์ฌ๋ฌ ์ ์ฅ์์์ ๋์ผํ ์คํฌ์ด ๋ณต์ฌ๋์ด ๋ฐฐํฌ๋๋ ๊ฒฝ์ฐ๊ฐ ์์๊ธฐ ๋๋ฌธ์ด๋ค.
์ต์ข ์ปฌ๋ ์ ์ ์น ๊ฐ๋ฐ, ๋ฐ์ดํฐ ์์ง๋์ด๋ง, DevOps, ๊ณผํ ์ปดํจํ ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์ ๊ฑธ์ณ ๋ถํฌ๋์ด ์์ผ๋ฉฐ, ์ด๋ ์ค์ ์ฌ์ฉ์๋ค์ด ํ์ฉํ๋ ์คํฌ ์ํ๊ณ๋ฅผ ์๋นํ ์ถฉ์คํ๊ฒ ๋ํํ๋ค.
5.2 ์ปฌ๋ ์ ์ ์์
34k ๊ท๋ชจ์ ์คํฌ ์ปฌ๋ ์ ์ ๋จ์ํ ๋ฐ์ดํฐ ํฌ๊ธฐ์ ๋ฌธ์ ๊ฐ ์๋๋ผ, โ์ค์ ๊ฒ์ ์ ๋ ธ์ด์ฆ์ ๋ถ์ ํํ ๋งค์นญโ์ ๋ฌธ์ ๋ฅผ ๋์ ํ๋ค๋ ์ ์์ ์ค์ํ๋ค. ์ด๋ค ํน์ ํ์คํฌ์ ๋ํด ์ด 34k ํ์์ ์๋ฒฝํ๊ฒ ๋ง์ถคํ๋ ์คํฌ์ ์ฐพ์ ๊ฐ๋ฅ์ฑ์ ๊ทนํ ๋ฎ๋ค. ์ด๊ฒ์ด ๋ฐ๋ก ํ์ค์ด๋ฉฐ, ์ด ๋ ผ๋ฌธ์ด ์ธก์ ํ๊ณ ์ ํ๋ ๊ฒ์ด๋ค.
6. ์คํฌ ๊ฒ์ ์์ง ์ค๊ณ
6.1 ์ธ๋ฑ์ฑ ๊ตฌ์กฐ
๊ฐ ์คํฌ์ ๋ ๊ฐ์ง ํํ ๋ฐฉ์์ผ๋ก ์ธ๋ฑ์ฑ๋๋ค.
- ๋ฉํ๋ฐ์ดํฐ ์ธ๋ฑ์ค: ์คํฌ์ ์ด๋ฆ๊ณผ ์ค๋ช ์ ์ฐ๊ฒฐํ ํ ์คํธ
- ์ ์ฒด ์ฝํ ์ธ ์ธ๋ฑ์ค: SKILL.md ํ์ผ์ ์ ์ฒด ๋ด์ฉ
๋ฐ์ง ์๋ฒ ๋ฉ(Dense Embedding)์๋ Qwen3-Embedding-4B ๋ชจ๋ธ์ด ์ฌ์ฉ๋์๊ณ , ํฌ์ ํค์๋ ๋งค์นญ์๋ BM25๊ฐ ์ฌ์ฉ๋์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก SQLite FTS5 ์ ๋ฌธ ๊ฒ์ ์ธ๋ฑ์ค๋ฅผ ๊ตฌ์ถํ์ผ๋ฉฐ, BM25 ๋ญํน์์ ํ๋ ๊ฐ์ค์น๋ ์ด๋ฆ 10, ์ค๋ช 5, ์ ์ฒด ์ฝํ ์ธ 5๋ฅผ ์ ์ฉํ๋ค.
6.2 ๊ฒ์ ๋ฐฉ๋ฒ ๋น๊ต
์ฐ๊ตฌํ์ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ๋ ๋ค ๊ฐ์ง ๊ฒ์ ์ ๋ต์ ๋น๊ตํ๋ค.
์ง์ ๊ฒ์ (Direct Search)
ํ์คํฌ ์ค๋ช ์์ฒด๋ฅผ ์ฟผ๋ฆฌ๋ก ์ฌ์ฉํ์ฌ ๋ฉํ๋ฐ์ดํฐ ์ธ๋ฑ์ค์์ ์์ k๊ฐ ์คํฌ์ ๋ฐ์ง ์๋ฒ ๋ฉ ์ ์ฌ๋ ๊ธฐ๋ฐ์ผ๋ก ๊ฒ์ํ๋ ๊ฐ์ฅ ๋จ์ํ ๋ฐฉ์์ด๋ค. ์ฌ๋์ ๊ฐ์ ์ด๋ ๋ฐ๋ณต์ ์ธ ์ฟผ๋ฆฌ ์กฐ์ ์์ด ๋จ์ผ ๊ฒ์์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ค.
์์ด์ ํฑ ๊ฒ์ - ํค์๋ (Agentic Search - Keyword)
์์ด์ ํธ๊ฐ BM25 ๊ธฐ๋ฐ ํค์๋ ๊ฒ์ ๋๊ตฌ์๋ง ์ ๊ทผํ ์ ์์ผ๋ฉฐ, ๊ฒ์ ์ฟผ๋ฆฌ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์กฐ์ ํ๊ณ ํ๋ณด ์คํฌ์ ๊ด๋ จ์ฑ์ ์ง์ ํ๊ฐํ๋ ๋ฐฉ์์ด๋ค.
์์ด์ ํฑ ๊ฒ์ - ์๋งจํฑ (Agentic Search - Semantic)
์์ด์ ํธ๊ฐ ๋ฐ์ง ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ์๋ฏธ๋ก ์ ๊ฒ์ ๋๊ตฌ์๋ง ์ ๊ทผํ๋ ๋ฐฉ์์ด๋ค. ์๋งจํฑ ๊ฒ์์ ๋ช ํํ ํค์๋๊ฐ ์์ด๋ ๊ฐ๋ ์ ์ ์ฌ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ๊ด๋ จ ์คํฌ์ ์ฐพ์ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
์์ด์ ํฑ ํ์ด๋ธ๋ฆฌ๋ ๊ฒ์ (Agentic Hybrid Search)
ํค์๋ ๊ฒ์, ์๋งจํฑ ๊ฒ์, ํ์ด๋ธ๋ฆฌ๋ ๋๊ตฌ(๋ ์ ์๋ฅผ ๊ฒฐํฉ) ๋ชจ๋์ ์ ๊ทผํ ์ ์์ผ๋ฉฐ, RRF(Reciprocal Rank Fusion) ๋ฐฉ์์ผ๋ก ์ ์๋ฅผ ํตํฉํ๋ค. RRF ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค.
\[\text{RRF Score} = \sum_s \frac{w_s}{k + r_s}\]์ฌ๊ธฐ์ $r_s$๋ ๊ฒ์ ๋ฐฉ๋ฒ $s$์์์ ์์, $w_s$๋ ๋ฐฉ๋ฒ ๊ฐ์ค์น, $k=60$์ ์ตํฉ ์์๋ค. โhybrid w/ contentโ ๋ณํ์์๋ ๋ฉํ๋ฐ์ดํฐ์ ์ ์ฒด ์ฝํ ์ธ ์๋ฒ ๋ฉ ์ ์ฌ๋์ ๊ฐ์ค ํ๊ท ๋ ํ์ฉํ๋ค.
graph LR
Query[์ฌ์ฉ์ ์ฟผ๋ฆฌ/ํ์คํฌ] --> KW[ํค์๋ ๊ฒ์\nBM25/FTS5]
Query --> SEM[์๋งจํฑ ๊ฒ์\nQwen3-Embedding-4B]
KW --> RRF[RRF ์ตํฉ]
SEM --> RRF
RRF --> TOP[์์ k๊ฐ ์คํฌ ํ๋ณด]
TOP --> AGENT[์์ด์ ํธ ํ๋จ\n๊ด๋ จ์ฑ ํ๊ฐ]
AGENT --> |์ฟผ๋ฆฌ ์กฐ์ | Query
AGENT --> FINAL[์ต์ข
์ ํ ์คํฌ]
6.3 ๊ฒ์ ์ฑ๋ฅ ๋น๊ต ๊ฒฐ๊ณผ
Recall@k ์งํ(์์ k๊ฐ ๊ฒฐ๊ณผ์ ์ ๋ต ์คํฌ์ด ํฌํจ๋ ๋น์จ)๋ก ์ธก์ ํ ๊ฒฐ๊ณผ, ์์ด์ ํฑ ๊ฒ์์ด ์ง์ ๊ฒ์๋ณด๋ค ํ์ ํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค. ๋์ผํ ์๋งจํฑ ๊ฒ์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ ๋ ์์ด์ ํฑ ๊ฒ์์ Recall@3์์ ์ง์ ๊ฒ์๋ณด๋ค 18.7 ํผ์ผํธ ํฌ์ธํธ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ค.
์์ด์ ํธ๊ฐ ๋ฐ๋ณต์ ์ผ๋ก ์ฟผ๋ฆฌ๋ฅผ ์กฐ์ ํ๊ณ , ๋ฐํ๋ ํ๋ณด๋ฅผ ์ ๊ฒํ๋ฉฐ, ๋จ์ผ ๊ณ ์ ์ฟผ๋ฆฌ๋ฅผ ๋์ด์๋ ๊ฒ์ ์ ๋ต์ ๊ตฌ์ฌํ ์ ์๋ค๋ ๊ฒ์ด ํต์ฌ ์ด์ ๋ค. ๋ํ ์ ์ฒด ์ฝํ ์ธ ์ธ๋ฑ์ค๋ฅผ ์ถ๊ฐํ๋ฉด ๋์ k ๊ฐ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ด ๋ํ๋ฌ๋ค(Recall@5: 63.5% โ 65.5%, Recall@10: 66.7% โ 68.3%).
7. ๋จ๊ณ์ ํ๊ฐ ์ค์
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๊ธฐ์ฌ ์ค ํ๋๋ ์ด์์ ์กฐ๊ฑด์์ ํ์ค์ ์กฐ๊ฑด์ผ๋ก ์ ์ง์ ์ผ๋ก ์ด๋ํ๋ 6๋จ๊ณ ํ๊ฐ ํ๋ ์์ํฌ์ ์ค๊ณ๋ค.
flowchart LR
S1["โ ํ๋ ์ด์
+ ๊ฐ์ ๋ก๋\n(์ด์์ ์ํ์ )"]
S2["โก ํ๋ ์ด์
์คํฌ\n(์์จ ์ ํ)"]
S3["โข ํ๋ ์ด์
+ ๋ฐฉํด ์คํฌ\n(์ ํ ๋์ด๋ ์ฆ๊ฐ)"]
S4["โฃ ๊ฒ์ ๋ฐฉ์\n(ํ๋ ์ด์
ํฌํจ)"]
S5["โค ๊ฒ์ ๋ฐฉ์\n(ํ๋ ์ด์
์ ์ธ)"]
S6["โฅ ์คํฌ ์์\n(baseline)"]
S1 --> |"์คํฌ ์ ํ ๋์ ๋์
"| S2
S2 --> |"๋ฐฉํด ์คํฌ ์ถ๊ฐ"| S3
S3 --> |"์คํฌ ๊ฒ์ ๋์ ๋์
"| S4
S4 --> |"์คํฌ ์ ์ ๋์ ๋์
"| S5
S5 -.-> |"๋น๊ต ๊ธฐ์ค"| S6
style S1 fill:#4CAF50,color:#fff
style S6 fill:#F44336,color:#fff
style S5 fill:#FF9800,color:#fff
๊ฐ ๋จ๊ณ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ์ค๋ช ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
โ ํ๋ ์ด์ + ๊ฐ์ ๋ก๋ (Curated + Forced Load)
์์ด์ ํธ์ ํ๊ฒฝ์ ํ๋ ์ด์ ์คํฌ์ด ์ ๊ณต๋๊ณ , ์์ด์ ํธ๋ ์ด๋ฅผ ๋ชจ๋ ๋ก๋ํ๋๋ก ๋ช ์์ ์ผ๋ก ์ง์๋ฐ๋๋ค. ์ธ ๊ฐ์ง ๋์ ๊ณผ์ ๋ฅผ ๋ชจ๋ ์ฐํํ๋ฏ๋ก, ํ๋ ์ด์ ์คํฌ ์ ์ฉ์ฑ์ ์ํ์ ์ ๋ํ๋ธ๋ค.
โก ํ๋ ์ด์ ์คํฌ (Curated)
SkillsBench์ ์๋ ์ค์ ๊ณผ ๋์ผํ๋ค. ํ๋ ์ด์ ์คํฌ์ด ์ ๊ณต๋์ง๋ง, ์ด๋ค ์คํฌ์ ์ธ์ ๋ก๋ํ ์ง๋ ์์ด์ ํธ ์์ ์ ํ๋จ์ ๋งก๊ธด๋ค. ์คํฌ ์ ํ์ ์ด๋ ค์์ ๋์ ํ๋ ์ฒซ ๋ฒ์งธ ํ์คํ ๋จ๊ณ๋ค.
โข ํ๋ ์ด์ + ๋ฐฉํด ์คํฌ (Curated + Distractors)
ํ๋ ์ด์ ์คํฌ์ ์ฌ์ ํ ์ ๊ณต๋์ง๋ง, 34k ์ปฌ๋ ์ ์์ ์์ด์ ํฑ ๊ฒ์์ผ๋ก ๊ฐ์ ธ์จ ๋ฐฉํด ์คํฌ๋ค์ด ์ถ๊ฐ๋๋ค. ์ ์ฒด ์คํฌ ์๋ 5๊ฐ๋ก ์ผ์ ํ๊ฒ ์ ์งํ๋ค. ์์ด์ ํธ๋ ๋ ธ์ด์ฆ ์์์ ์ ์ฉํ ์คํฌ์ ๊ฐ๋ ค๋ด์ผ ํ๋ค.
โฃ ๊ฒ์ ๋ฐฉ์ - ํ๋ ์ด์ ํฌํจ (Retrieved w/ Curated)
์์ด์ ํธ๋ ํ๋ ์ด์ ์คํฌ์ด ํฌํจ๋ 34k ์ปฌ๋ ์ ์์ ์์ 5๊ฐ ์คํฌ์ ์ง์ ๊ฒ์ํด์ผ ํ๋ค. ์คํฌ ์ ํ์ ์ด๋ ค์์ ๊ฒ์ ์์ฒด์ ์ด๋ ค์์ด ์ถ๊ฐ๋๋ค.
โค ๊ฒ์ ๋ฐฉ์ - ํ๋ ์ด์ ์ ์ธ (Retrieved w/o Curated)
ํ๋ ์ด์ ์คํฌ์ด ์๋ 34k ์ปฌ๋ ์ ์์๋ง ๊ฒ์ํ๋ค. ํ์คํฌ๋ฅผ ์ํด ํน๋ณํ ์ ์๋ ์คํฌ์ด ์กด์ฌํ์ง ์์ผ๋ฏ๋ก, ์์ด์ ํธ๋ ๋ถ๋ถ์ ์ผ๋ก๋ง ๊ด๋ จ๋ ๋ฒ์ฉ ์คํฌ์ ํ์ฉํด์ผ ํ๋ค. ์คํฌ ์ ์์ ๋์ ๊น์ง ๋ชจ๋ ํฌํจ๋๋ ๊ฐ์ฅ ํ์ค์ ์ธ ์ค์ ์ด๋ค.
โฅ ์คํฌ ์์ (No Skills)
๋น๊ต ๊ธฐ์ค์ . ์คํฌ ์์ด ํ์คํฌ๋ฅผ ์ํํ๋ค.
8. ํต์ฌ ์คํ ๊ฒฐ๊ณผ ๋ถ์
8.1 ํ๊ฐ ๋ชจ๋ธ ๋ฐ ํ๊ฒฝ
์ธ ๊ฐ์ง ์ต์ฒจ๋จ ๋ชจ๋ธ์ ๊ฐ๊ฐ์ ๋ค์ดํฐ๋ธ ์์ด์ ํธ ํ๋ค์ค์ ๊ฒฐํฉํ์ฌ ํ๊ฐํ๋ค.
| ๋ชจ๋ธ | ์์ด์ ํธ ํ๋ค์ค | ์ฑ๊ฒฉ |
|---|---|---|
| Claude Opus 4.6 | Claude Code v2.1.19 | ์ต๊ณ ์์ค ๋ ์ ๋ชจ๋ธ |
| Kimi K2.5 | Terminus-2 | ๊ฐ๋ ฅํ ๋ ์ ๋ชจ๋ธ |
| Qwen3.5-397B-A17B | Qwen-Code v0.12.3 | ๊ฐ๋ ฅํ ์คํ์จ์ดํธ ๋ชจ๋ธ |
๋ชจ๋ ์คํ์ ๊ฒฉ๋ฆฌ๋ Docker ์ปจํ ์ด๋์์ ๊ฐ ์กฐ๊ฑด๋น 3ํ ๋ฐ๋ณต ์คํ๋์๋ค.
8.2 ์คํฌ ์ ํ ๋ฌธ์ : ์ง์ ์ ๊ณตํด๋ ์ฌ๋ฐ๋ฅด๊ฒ ์ ํํ์ง ๋ชปํจ
ํ๋ ์ด์ ์คํฌ์ ๊ฐ์ ๋ก๋ํ ๋ Claude์ pass rate๋ 55.4% ์๋ค. ๊ทธ๋ฌ๋ ์์ด์ ํธ๊ฐ ์ค์ค๋ก ๋ก๋ ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋๋ก ํ์ 51.2% ๋ก ๋จ์ด์ก๋ค. ๋์ผํ ์คํฌ์ด ๋์ผํ๊ฒ ์ ๊ณต๋จ์๋ ๋ถ๊ตฌํ๊ณ ๋ง์ด๋ค. ๋ฐฉํด ์คํฌ์ด ์ถ๊ฐ๋์ 43.5% ๋ก ๋ ํ๋ฝํ๋ค.
์ด ํ์์ ์์ธ์ ์คํฌ ์ฌ์ฉ๋ฅ ๋ฐ์ดํฐ์์ ๋ถ๋ช ํ ๋๋ฌ๋๋ค. Claude์ ๊ฒฝ์ฐ ํ๋ ์ด์ ์ค์ ์์ ํ๋ ์ด์ ์คํฌ ์ ์ฒด๋ฅผ ๋ก๋ํ ๋น์จ์ด 49%์ ๋ถ๊ณผํ๊ณ , ๋ฐฉํด ์คํฌ์ด ์ถ๊ฐ๋์ 31%๊น์ง ๋จ์ด์ก๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์ Kimi๊ฐ ํ๋ ์ด์ ์ค์ ์์ 86%๋ผ๋ ํจ์ฌ ๋์ ์คํฌ ๋ก๋์จ์ ๋ณด์์์๋, ํ์คํฌ pass rate๋ 38.9%๋ก ๊ฐ์ ๋ก๋ ์์ 38.5%์ ํฐ ์ฐจ์ด๊ฐ ์์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ์คํฌ์ ๋ก๋ํ๋ ๊ฒ๊ณผ ์คํฌ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๊ฒ์ด ๋ณ๊ฐ์ ์ญ๋์์ ์์ฌํ๋ค.
8.3 ์คํฌ ๊ฒ์ ๋ฌธ์ : ์ง์ ๊ฒ์ ์ ์ถ๊ฐ ์ฑ๋ฅ ์ ํ
ํ๋ ์ด์ ์คํฌ์ด ๋ ์ด์ ์ง์ ์ ๊ณต๋์ง ์๊ณ ์์ด์ ํธ๊ฐ ๊ฒ์ํด์ผ ํ ๋, ์ฑ๋ฅ์ ๋ค์ ํ ๋ฒ ํ๋ฝํ๋ค. ํ๋ ์ด์ ์คํฌ์ด 34k ํ์ ํฌํจ๋์ด ์์ด๋ Claude์ pass rate๋ 40.1%, Kimi๋ 33.5% ๊น์ง ๋จ์ด์ง๋ค.
์ด๋ ๊ฐ์ฅ ์ข์ ๊ฒ์ ์ ๋ต์์๋ Recall@5๊ฐ 65.5%์ ๋ถ๊ณผํ๋ค๋ ํ์ค, ์ฆ ์์ด์ ํธ๊ฐ ๋ณด๋ ํ๋ณด ์ค ํ๋ ์ด์ ์คํฌ์ด ํญ์ ํฌํจ๋์ง๋ ์๋๋ค๋ ์ฌ์ค์ด ๋ฐ์๋ ๊ฒฐ๊ณผ๋ค.
8.4 ์คํฌ ์ ์ ๋ฌธ์ : ๋ฒ์ฉ ์คํฌ๋ก๋ ๊ธฐ์ค์ ์ ๊ทผ์
ํ๋ ์ด์ ์คํฌ์ด ํ์์ ์์ ํ ์ ๊ฑฐ๋์ด ๋ฒ์ฉ ์คํฌ๋ง ์์ ๋ ๊ฒฐ๊ณผ๋ ๊ทน์ ์ผ๋ก ์ ํ๋๋ค.
| ๋ชจ๋ธ | ๊ฒ์(ํ๋ ์ด์ ์ ์ธ) | ์คํฌ ์์ baseline | ์ฐจ์ด |
|---|---|---|---|
| Claude Opus 4.6 | 38.4% | 35.4% | +3.0%p |
| Kimi K2.5 | 19.8% | 21.8% | -2.0%p |
| Qwen3.5 | 19.7% | 20.5% | -0.8%p |
Claude๋ baseline๋ณด๋ค 3.0%p ๋์ ์ฑ๋ฅ์ ์ ์งํ์ง๋ง, Kimi์ Qwen์ ์คํ๋ ค ์คํฌ์ด ์์ ๋๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ์์ก๋ค. ์ด๋ ๊ด๋ จ ์๋ ๊ฒ์๋ ์คํฌ์ด ์์ด์ ํธ๋ฅผ ์ ๊ทน์ ์ผ๋ก ์ค๋(mislead)ํ ์ ์์์ ์๋ฏธํ๋ค. ์์ด์ ํธ๊ฐ ๋ถํ์ํ ์คํฌ์ ๋ก๋ํ๊ณ ๊ทธ ์ง์นจ์ ๋ฐ๋ฅด๋๋ผ ์๊ฐ์ ๋ญ๋นํ๊ฑฐ๋ ์๋ชป๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ ๊ฒ์ด๋ค.
์ด ๊ฒฐ๊ณผ์์ ๋ชจ๋ธ ๊ฐ๋์ ์คํฌ ๋ด์ฑ(resilience) ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ํฅ๋ฏธ๋กญ๋ค. ๊ฐ๋ ฅํ ๋ชจ๋ธ(Claude)์ ๊ด๋ จ ์๋ ์คํฌ์ ๋ฌด์ํ ์ ์๋ ๋ฅ๋ ฅ์ด ๋ ๋์ ๋ฐ๋ฉด, ์๋์ ์ผ๋ก ์ฝํ ๋ชจ๋ธ๋ค์ ์ ํ์ง ์คํฌ์ ๋ ์ทจ์ฝํ๋ค.
xychart-beta
title "๋จ๊ณ์ ์กฐ๊ฑด์ ๋ฐ๋ฅธ Pass Rate ๋ณํ (Claude Opus 4.6)"
x-axis ["๊ฐ์ ๋ก๋", "ํ๋ ์ด์
", "ํ๋ ์ด์
+๋ฐฉํด", "๊ฒ์(ํฌํจ)", "๊ฒ์(์ ์ธ)", "์คํฌ ์์"]
y-axis "Pass Rate (%)" 0 --> 70
bar [55.4, 51.2, 43.5, 40.1, 38.4, 35.4]
9. ์คํฌ ์ ์ ์ ๋ต
์ฑ๋ฅ ์ ํ์ ์์ธ ๋ถ์์์ ๋ ๊ฐ์ง ๋ณ๋ชฉ์ด ๋ฐ๊ฒฌ๋์๋ค.
- ๋ณ๋ชฉ โ : ์์ด์ ํธ๊ฐ ์ด๋ค ์คํฌ์ ๋ก๋ํ ๊ฐ์น๊ฐ ์๋์ง ํ๋จํ์ง ๋ชปํด ์ ์ฉํ ์คํฌ์ ํ์ฉํ์ง ์์
- ๋ณ๋ชฉ โก: ๊ฒ์๋ ์คํฌ์ ๋ด์ฉ์ ๋ ธ์ด์ฆ๊ฐ ๋ง๊ฑฐ๋ ํ์คํฌ์ ํ์ํ ์ ํํ ์ ๋ณด๊ฐ ๋ถ์กฑํจ
์ด ๋ณ๋ชฉ๋ค์ ํด์ํ๊ธฐ ์ํด ๋ ๊ฐ์ง ์คํฌ ์ ์ ์ ๋ต์ ์ฐ๊ตฌํ๋ค.
9.1 ์ฟผ๋ฆฌ ๋ถ๊ฐ์ง์ ์ ์ (Query-Agnostic Refinement)
๊ณ ํ์ง ํ๋ ์ด์ ์คํฌ์ด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํจ๋ค๋ ๊ด์ฐฐ์์ ์ฐฉ์ํ์ฌ, 34k ์คํฌ ์ปฌ๋ ์ ์ ์ฒด๋ฅผ ํ๋ ์ด์ ์์ค์ผ๋ก ๊ฐ์ ํ๋ ค๋ ์๋๋ค. ๊ทธ๋ฌ๋ 34k ์คํฌ ์ ์ฒด๋ฅผ ์ ์ ํ๋ ๊ฒ์ ๋น์ฉ ์ธก๋ฉด์์ ๋นํ์ค์ ์ด๋ฏ๋ก, ๊ฐ ํ์คํฌ์ ๋ํด ๊ฒ์๋ ์คํฌ๋ง์ ์คํ๋ผ์ธ์ผ๋ก ๊ฐ์ ํ๋ ๋ฐฉ์์ ํํ๋ค.
ํต์ฌ ๋ฉ์ปค๋์ฆ์ Anthropic์ skill-creator ๋ฉํ ์คํฌ์ ํ์ฉํ๋ ๊ฒ์ด๋ค. ์ด ๋ฉํ ์คํฌ์ ํจ๊ณผ์ ์ธ ์คํฌ ์์ฑ ๋ชจ๋ฒ ์ฌ๋ก๋ฅผ ์ธ์ฝ๋ฉํ๊ณ ์๋ค. ๊ฐ ์คํฌ์ ๋ํด ๋ชจ๋ธ์ ๋ค์์ ์ํํ๋ค.
์ฒซ์งธ, ํด๋น ์คํฌ์ด ์ฌ์ฉ๋ ์ ์๋ ํฉ์ฑ ํ ์คํธ ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ๋ค. ๋์งธ, ์คํฌ์ด ์๋ ๊ฒฝ์ฐ์ ์๋ ๊ฒฝ์ฐ ๊ฐ๊ฐ ์์ด์ ํธ๋ฅผ ์คํํ๋ค. ์ ์งธ, ๋ ์์ด์ ํธ์ ์ถ๋ ฅ์ ๋น๊ตํ๊ณ ์คํฌ์ด ๋์์ด ๋๋์ง ํด๊ฐ ๋๋์ง ์์ฒด ํ๊ฐํ๋ค. ๋ท์งธ, ์ด ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ์คํฌ์ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๋ค.
์ด ๊ณผ์ ์ด ์์ ํ ์คํ๋ผ์ธ์ผ๋ก ์ด๋ฃจ์ด์ง๋ฏ๋ก, ์ฟผ๋ฆฌ ๋ถ๊ฐ์ง์ ์ ์ ๋ ์ถ๋ก ์์ ์์ ๊ณ์ฐ ๋น์ฉ์ด ๋ฎ๊ณ ์ ์ฒ๋ฆฌ ๋จ๊ณ๋ก ์ ์ฉ๋ ์ ์๋ค. ๊ทธ๋ฌ๋ ๋ ๊ฐ์ง ํ๊ณ๊ฐ ์๋ค. ์ฒซ์งธ, ํน์ ํ์คํฌ์ ํ์์ ์คํฌ์ ๋ง์ถคํํ ์ ์๋ค. ๋์งธ, ๊ฐ ์คํฌ์ด ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ ๋๋ฏ๋ก ์ฌ๋ฌ ๊ฒ์๋ ์คํฌ ๊ฐ์ ์ ๋ณด๋ฅผ ํฉ์ฑํ ์ ์๋ค.
9.2 ์ฟผ๋ฆฌ ํนํ ์ ์ (Query-Specific Refinement)
์ฟผ๋ฆฌ ๋ถ๊ฐ์ง์ ์ ์ ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํ ์ ๊ทผ์ผ๋ก, ์์ด์ ํธ๊ฐ ์ ์ ์ ์ ์ง์ ํ์คํฌ๋ฅผ ํ์ํ๋๋ก ํ๋ค. ์ ์ ๊ณผ์ ์ ๋ค์ ์ธ ๋จ๊ณ๋ก ์งํ๋๋ค.
sequenceDiagram
participant T as ํ์คํฌ
participant A as ์ ์ ์์ด์ ํธ
participant S as ๊ฒ์๋ ์คํฌ๋ค
participant R as ์ ์ ๋ ์คํฌ
T->>A: ํ์คํฌ ์ง์์ฌํญ ์ ๊ณต
A->>S: ๋ชจ๋ ๊ฒ์๋ ์คํฌ ์ฝ๊ธฐ
A->>T: ์ด๊ธฐ ์๋ฃจ์
์๋
T-->>A: ๊ฒฐ๊ณผ ๋ฐํ
A->>A: ์์ฒด ํ๊ฐ (์ ๋ต ๊ฒ์ฆ๊ธฐ ์์ด)
Note over A: ์ ์ฉํ ์คํฌ vs ์คํด๋ฅผ ์ ๋ฐํ ์คํฌ ๋ฐ์ฑ
A->>S: ์ฌ๋ฌ ์คํฌ์์ ์ ์ฉํ ๋ถ๋ถ ์ถ์ถ
A->>R: ํฉ์ฑ๋ ๋จ์ผ ์ ์ ์คํฌ ์์ฑ
Note over R: ํ์ํ ์ ๋ณด๋ง ํตํฉํ\nํ์คํฌ ํนํ ์คํฌ
Phase 1: ํ์คํฌ ์ง์์ฌํญ๊ณผ ๋ชจ๋ ๊ฒ์๋ ์คํฌ์ ํ์ ํ๋ค.
Phase 2: ๊ฒ์๋ ์คํฌ์ ์ ๊ทน์ ์ผ๋ก ์ฐธ์กฐํ๋ฉด์ ํ์คํฌ ํด๊ฒฐ์ ์๋ํ๋ค. ์คํฌ์ด ์ ์ํ๋ ์ ๊ทผ๋ฒ์ ์๋ํ๊ณ , ์ด๋ค ๋ถ๋ถ์ด ์๋ํ๊ณ ์๋ํ์ง ์๋์ง ํ์ ํ๋ค.
Phase 3: ํ์ ๊ฒฝํ์ ๋ฐํ์ผ๋ก ์ด๋ค ์คํฌ์ด ์ ์ฉํ๊ณ ์ด๋ค ์คํฌ์ด ์คํด๋ฅผ ์ ๋ฐํ๋์ง ๋ฐ์ฑํ๊ณ , ์ฌ๋ฌ ์คํฌ์ ๊ฑธ์ณ ์ ์ฉํ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ํ์คํฌ์ ๋ง์ถคํ๋ ์ ์ ์คํฌ ์ธํธ๋ฅผ ์์ฑํ๋ค.
์ฟผ๋ฆฌ ํนํ ์ ์ ๋ ์ฌ๋ฌ ์คํฌ์์ ๊ด๋ จ ๋ถ๋ถ์ ์ถ์ถํ๊ณ ๊ฐ๊ฐ์ด ๋จ๋ ์ผ๋ก ์ ๊ณตํ์ง ๋ชปํ๋ ๋จ์ผ ์ผ๊ด์ฑ ์๋ ์คํฌ๋ก ๊ฒฐํฉํ๋ ๋ฅ๋ ฅ์ด ํต์ฌ์ด๋ค. ๋จ, ํ์คํฌ๋น ์ถ๋ก ์์ ์์ ์ ์ฒด ํ์ ๊ณผ์ ์ด ํ์ํ๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ๋๋ค.
10. ์ ์ ๊ฒฐ๊ณผ ๋ฐ ํจ๊ณผ
10.1 ์ฟผ๋ฆฌ ํนํ ์ ์ ์ ๊ด๋ฒ์ํ ํจ๊ณผ
์ฟผ๋ฆฌ ํนํ ์ ์ ๋ ์ด 9๊ฐ ํ๊ฐ ์ผ์ด์ค ์ค 7๊ฐ์์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ค.
SkillsBench (ํ๋ ์ด์ ํฌํจ) ๊ฒฐ๊ณผ:
| ๋ชจ๋ธ | ์ ์ ์ | ์ ์ ํ | ๋ณํ |
|---|---|---|---|
| Claude Opus 4.6 | 40.1% | 48.2% | +8.1%p |
| Qwen3.5 | 26.7% | 30.8% | +4.1%p |
| Kimi K2.5 | 33.5% | 26.7% | -6.8%p (์์ธ) |
Kimi์ ๊ฒฝ์ฐ ์ ์ ๊ณผ์ ์ด ์คํ๋ ค ์ญํจ๊ณผ๋ฅผ ๋ณ์ ์์ธ์ ์ฌ๋ก๋ค. ๋ชจ๋ธ์ด ์ด๋ค ์คํฌ์ด ์ ์ฉํ์ง๋ฅผ ์๋ชป ํ๋จํ์ ๋, ํ์ ๋ฐ ์์ฒด ํ๊ฐ ๊ณผ์ ์ด ์คํ๋ ค ์ญ์์ฐ์ ์ผ ์ ์์์ ๋ณด์ฌ์ค๋ค.
์คํฌ ๋ก๋์จ ๋ณํ:
์ฟผ๋ฆฌ ํนํ ์ ์ ๋ pass rate ํฅ์๋ฟ ์๋๋ผ ์คํฌ ๋ก๋์จ๋ ํฌ๊ฒ ๋์๋ค. Claude์ ๊ฒฝ์ฐ SkillsBench ๊ฒ์(ํ๋ ์ด์ ํฌํจ) ์กฐ๊ฑด์์ 44%์์ 72%๋ก ์ฆ๊ฐํ๋ค. ์ด๋ ์ ์ ๊ฐ ์์ด์ ํธ๊ฐ ๋ ๊ธฐ๊บผ์ด ์ฌ์ฉํ๋ ์คํฌ์ ์์ฑํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
10.2 ์ ์ ํจ๊ณผ๊ฐ ์ด๊ธฐ ์คํฌ ํ์ง์ ์์กดํจ
ํฅ๋ฏธ๋ก์ด ํจํด์ด ๋ฐ๊ฒฌ๋์๋ค. ๊ฒ์(ํ๋ ์ด์ ์ ์ธ) ์กฐ๊ฑด์์๋ ์ฟผ๋ฆฌ ํนํ ์ ์ ์ ํจ๊ณผ๊ฐ ๋ฏธ๋ฏธํ๊ฑฐ๋ ์์๋ค. ์ด ๋น๋์นญ์ฑ์ ์ค๋ช ํ๊ธฐ ์ํด GPT-5.4๋ฅผ LLM ํ์ฌ๋ก ํ์ฉํ์ฌ ๊ฐ ํ์คํฌ์ ๊ฒ์๋ ์คํฌ ์ธํธ์ ๊ด๋ จ์ฑ๊ณผ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ 1-5์ ์ฒ๋๋ก ํ๊ฐํ๋ค.
| ํ๊ฐ ์ค์ | ํ๊ท ์ปค๋ฒ๋ฆฌ์ง ์ ์ | ์ ์ ํจ๊ณผ |
|---|---|---|
| SkillsBench (ํ๋ ์ด์ ํฌํจ) | โฅ3.83 | ๋ |
| Terminal-Bench 2.0 | โฅ3.83 | ๋ |
| SkillsBench (ํ๋ ์ด์ ์ ์ธ) | โค3.49 | ์/์์ |
์ด ๊ฒฐ๊ณผ๋ ์ค์ํ ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํ๋ค. ์ ์ ๋ ์๋ก์ด ์ง์์ ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ, ๊ธฐ์กด ์คํฌ ํ์ง์ ์ฆํญ์ํค๋ ์ญํ ์ ํ๋ค. ์ฒ์์ ๊ฒ์๋ ์คํฌ์ ๊ด๋ จ ์ ๋ณด๊ฐ ์๋ค๋ฉด, ์ ์ ๊ฐ ๊ทธ ์ ํธ๋ฅผ ์ถ์ถํ๊ณ ์ฆํญ์ํฌ ์ ์๋ค. ๊ด๋ จ ์คํฌ ์์ฒด๊ฐ ์๋ค๋ฉด, ์ ์ ๋ ์ ์ฉํ ์ ๋ณด๋ฅผ ํฉ์ฑํ ์ ์๋ค.
10.3 ์ฟผ๋ฆฌ ๋ถ๊ฐ์ง์ ์ ์ ์ ์ ํ์ ํจ๊ณผ
์ฟผ๋ฆฌ ๋ถ๊ฐ์ง์ ์ ์ ๋ ์ผ๋ถ ์ค์ ์์ ์ ๋นํ ๊ฐ์ ์ ์ ๊ณตํ๋ค(Claude: 40.1% โ 42.0%). ๊ทธ๋ฌ๋ ์ด๋์ด ์ผ๊ด์ฑ ์๊ณ ๋๋ก๋ ๋ฌด์ํ ๋งํ ์์ค์ด์๋ค. ํ์คํฌ์ ๋ํ ์ธ์ ์์ด๋ ์คํฌ์ ์ด๋ ๋ถ๋ถ์ด ๊ฐ์ฅ ๊ด๋ จ์ฑ ์๋์ง ํ์ ํ๊ฑฐ๋ ์ฌ๋ฌ ์คํฌ ๊ฐ์ ์ ๋ณด๋ฅผ ํฉ์ฑํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
11. Terminal-Bench 2.0 ์ผ๋ฐํ ๊ฒ์ฆ
์คํฌ์ ์ํด ์ค๊ณ๋ ๋ฒค์น๋งํฌ์์ ๋ํ๋๋ ํจ๊ณผ๊ฐ ์ผ๋ฐ ๋ฒค์น๋งํฌ์์๋ ์ ํจํ์ง ํ์ธํ๊ธฐ ์ํด, ์คํฌ์ ๊ณ ๋ คํ์ง ์๊ณ ์ค๊ณ๋ Terminal-Bench 2.0์์ ์ถ๊ฐ ์คํ์ ์ํํ๋ค.
Terminal-Bench 2.0์ 89๊ฐ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋ ๋ฒ์ฉ ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ก, ์์คํ ๊ด๋ฆฌ, ํ์ผ ์กฐ์, ํ๋ก๊ทธ๋๋ฐ ๋์ ๊ณผ์ ๋ฑ ๋ค์ํ ๋ช ๋ น์ค ์ธํฐํ์ด์ค ํ์คํฌ๋ฅผ ํฌํจํ๋ค. ์ด ๋ฒค์น๋งํฌ์๋ ํ๋ ์ด์ ์คํฌ์ด ์์ผ๋ฏ๋ก ์์ด์ ํธ๋ 34k ์ปฌ๋ ์ ์์ ์ง์ ๊ฒ์ํด์ผ ํ๋ค.
| ๋ชจ๋ธ | ์คํฌ ์์ | ์คํฌ ๊ฒ์ | ์ฟผ๋ฆฌ ํนํ ์ ์ |
|---|---|---|---|
| Claude Opus 4.6 | 57.7% | 61.4% | 65.5% (+7.8%p) |
| Kimi K2.5 | ์ธก์ | ์ธก์ | (๊ฐ์ ํ์ธ) |
| Qwen3.5 | ์ธก์ | ์ธก์ | (๊ฐ์ ํ์ธ) |
Claude์ ๊ฒฝ์ฐ ์คํฌ ์์ ๋๋น ์คํฌ ๊ฒ์+์ ์ ๋ฅผ ํตํด 7.8 ํผ์ผํธ ํฌ์ธํธ์ ํฅ์์ ๋ฌ์ฑํ๋ค. ์ด๋ ์คํฌ ๊ฒ์๊ณผ ์ ์ ์ ๊ทผ๋ฒ์ด ์คํฌ์ ์ํด ์ค๊ณ๋ ๋ฒค์น๋งํฌ์๋ง ๊ตญํ๋์ง ์๊ณ ๋ฒ์ฉ ์์ด์ ํธ ๋ฒค์น๋งํฌ์์๋ ์ผ๋ฐํ๋จ์ ๊ฐ๋ ฅํ๊ฒ ์ ์ฆํ๋ค.
12. ๊ด๋ จ ์ฐ๊ตฌ ์ํ๊ณ
์ด ๋ ผ๋ฌธ์ 2026๋ ํ์ฌ ๊ธ์ํ ์ฑ์ฅํ๊ณ ์๋ ์์ด์ ํฑ ์คํฌ ์ฐ๊ตฌ ์ํ๊ณ์ ๋งฅ๋ฝ ์์ ์์นํ๋ค.
12.1 ์์ด์ ํฑ ์คํฌ ๊ด๋ จ ์ฃผ์ ์ฐ๊ตฌ๋ค
| ์ฐ๊ตฌ | ์ฃผ์ ๊ธฐ์ฌ |
|---|---|
| SkillsBench (Li et al., 2026) | ์ต์ด์ ์คํฌ ํจ๊ณผ์ฑ ๋ฒค์น๋งํฌ (์ด์์ ์กฐ๊ฑด) |
| SWE-Skills-Bench (Han et al., 2026) | ์ค์ ์ํํธ์จ์ด ์์ง๋์ด๋ง์์์ ์คํฌ ํ๊ฐ |
| SoK: Agentic Skills (Jiang et al., 2026) | ์คํฌ ๋ถ๋ฅ์ฒด๊ณ ๋ฐ ์์ ์ฃผ๊ธฐ ๋ถ์ |
| SkillNet (Liang et al., 2026) | ๋๊ท๋ชจ ์คํฌ ์ธํ๋ผ |
| EvoSkill (Alzubi et al., 2026) | ๋ฉํฐ ์์ด์ ํธ ์์คํ ์์์ ์๋ ์คํฌ ๋ฐ๊ฒฌ |
| SkillRouter (Zheng et al., 2026) | ๋๊ท๋ชจ ์คํฌ ๋ผ์ฐํ |
| Skill-Inject (Schmotz et al., 2026) | ์๋ํํฐ ์คํฌ ํ์ผ์ ๋ณด์ ์ํ |
| SkillWeaver (Zheng et al., 2025) | ์น ์์ด์ ํธ์ ์๊ฐ ๊ฐ์ |
| SkillRL (Xia et al., 2026) | ๊ฐํํ์ต์ ํตํ ์คํฌ ์งํ |
12.2 ์ด ๋ ผ๋ฌธ์ ์ฐจ๋ณํ๋ ์์น
๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ์คํฌ์ ์์ฑ, ๋ฐ๊ฒฌ, ์งํ์ ์ด์ ์ ๋ง์ถ๊ฑฐ๋ ์ด์์ ์ธ ์กฐ๊ฑด์์์ ํ๊ฐ์ ๊ทธ์ณค๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์ ํ์ค์ ์กฐ๊ฑด์์์ ์คํฌ ์ ํธ๋ฆฌํฐ๋ฅผ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ณ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ ์ ์ ์ ๋ต์ ์ฐ๊ตฌํ๋ค๋ ์ ์์ ๋ ์ฐฝ์ฑ์ ๊ฐ๋๋ค.
13. ๊ฒฐ๋ก ๋ฐ ์์ฌ์
13.1 ํต์ฌ ๋ฐ๊ฒฌ์ฌํญ ์์ฝ
์ด ์ฐ๊ตฌ๋ LLM ์์ด์ ํธ ์คํฌ์ ๊ดํ ์ธ ๊ฐ์ง ํต์ฌ ๋ฐ๊ฒฌ์ฌํญ์ ๋์ถํ๋ค.
๋ฐ๊ฒฌ 1: ์คํฌ ํํ์ ์ทจ์ฝ์ฑ (Fragility of Skill Benefits)
์คํฌ์ด ์ด์์ ์กฐ๊ฑด์์ ์์ด์ ํธ ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํค์ง๋ง, ์กฐ๊ฑด์ด ํ์ค์ ์ผ๋ก ๋ณํ ์๋ก ๊ทธ ํํ์ ์ง์์ ์ผ๋ก ๊ฐ์ํ๋ค. ๊ฐ์ฅ ํ์ค์ ์ธ ์๋๋ฆฌ์ค์์ pass rate๋ ์คํฌ ์๋ ๊ธฐ์ค์ ์ ๊ทผ์ ํ๋ฉฐ, ์ผ๋ถ ๋ชจ๋ธ์์๋ ์คํ๋ ค ์ญํจ๊ณผ๊ฐ ๋ํ๋๋ค.
๋ฐ๊ฒฌ 2: ์์ด์ ํธ ํ๋ค์ค์ ์ค์์ฑ
๋์ผํ ์คํฌ ์งํฉ์ด ์ ๊ณต๋๋๋ผ๋ ์์ด์ ํธ ํ๋ค์ค์ ์ฐจ์ด๊ฐ ์คํฌ ๋ก๋์จ๊ณผ ํ์คํฌ ์ฑ๋ฅ์ ์๋นํ ์ํฅ์ ๋ฏธ์น๋ค. ์ด๋ ์คํฌ ์ ํธ๋ฆฌํฐ๊ฐ ๋จ์ํ ์คํฌ ํ์ง์ ํจ์๊ฐ ์๋๋ผ, ์์ด์ ํธ-ํ๋ค์ค-์คํฌ์ 3์ ์ํธ์์ฉ์์ ์๋ฏธํ๋ค.
๋ฐ๊ฒฌ 3: ์ ์ ๋ ์ฆํญ์ ์ด์ง ์์ฑ๊ธฐ๊ฐ ์๋ (Refinement as Amplifier, Not Generator)
์ฟผ๋ฆฌ ํนํ ์ ์ ๋ ์ด๊ธฐ ๊ฒ์๋ ์คํฌ์ ๊ด๋ จ ์ ๋ณด๊ฐ ์์ ๋ ํจ๊ณผ์ ์ผ๋ก ์ฑ๋ฅ์ ํ๋ณต์ํจ๋ค. ๊ทธ๋ฌ๋ ๊ด๋ จ ์คํฌ ์์ฒด๊ฐ ์๋ค๋ฉด ์ ์ ๋ ์ ์ฉํ ์ ๋ณด๋ฅผ ๋ง๋ค์ด๋ผ ์ ์๋ค. ์ ์ ๋ ์๋ก์ด ์ง์์ ์ฐฝ์ถํ๋ ๊ฒ์ด ์๋๋ผ ๊ธฐ์กด ์ง์์ ์ฆํญ์ํค๋ ๋ฉ์ปค๋์ฆ์ด๋ค.
13.2 ์ฃผ์ ์์น ์์ฝ
1
2
3
4
5
6
7
์คํฌ ๊ฐ์ ๋ก๋ โ ์คํฌ ์์จ ์ ํ: -4.2%p (Claude)
์คํฌ ์์จ ์ ํ โ ๋ฐฉํด ์คํฌ ์ถ๊ฐ: -7.7%p (Claude)
๋ฐฉํด ์คํฌ โ ์ง์ ๊ฒ์: -3.4%p (Claude)
์ง์ ๊ฒ์ โ ํ๋ ์ด์
์ ์ธ: -1.7%p (Claude)
ํ๋ ์ด์
์ ์ธ โ ์คํฌ ์์: -3.0%p (Claude๋ ์ฌ์ ํ ์ฝ๊ฐ ์ฐ์)
์ฟผ๋ฆฌ ํนํ ์ ์ ํจ๊ณผ: +8.1%p (Claude, SkillsBench ํ๋ ์ด์
ํฌํจ)
Terminal-Bench 2.0 ์ ์ฒด ๊ฐ์ : +7.8%p (Claude, ์คํฌ ์์ ๋๋น)
14. ์ค๋ฌด ์ ์ฉ ๊ด์ ๋ถ์
AI ์์ด์ ํธ ํ๋ซํผ(Works AI Plus, MCP ๊ธฐ๋ฐ ์ํคํ ์ฒ)๊ณผ ์ฐ๊ฒฐํ์ฌ ์ด ๋ ผ๋ฌธ์ ์์ฌ์ ์ ์ค๋ฌด์ ์ผ๋ก ํด์ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
14.1 ์ํฐํ๋ผ์ด์ฆ ์คํฌ ์ ์ฅ์ ์ค๊ณ ์์น
์ด ๋ ผ๋ฌธ์ ๋ฐ๊ฒฌ์ ๊ธฐ์ ๋ด ์คํฌ ์ ์ฅ์๋ฅผ ์ค๊ณํ ๋ ๋ค์์ ์์น์ ์์ฌํ๋ค.
์์น 1: ์คํฌ ๋ฉํ๋ฐ์ดํฐ ํ์ง์ด ๊ฒ์์ ํต์ฌ
์์ด์ ํฑ ๊ฒ์์์ ๋ฉํ๋ฐ์ดํฐ(์ด๋ฆ, ์ค๋ช )์ ํ์ง์ด ๊ฒ์ ์ฑ๋ฅ์ ์ข์ฐํ๋ค. ๊ธฐ์ ์คํฌ ์ ์ฅ์์์ ์คํฌ์ ๋ฑ๋กํ ๋ ๋ช ํํ๊ณ ํ๋ถํ ๋ฉํ๋ฐ์ดํฐ ์์ฑ์ ์๋ฌดํํด์ผ ํ๋ค.
์์น 2: ํ์ด๋ธ๋ฆฌ๋ ๊ฒ์์ด ๋จ์ ๊ฒ์๋ณด๋ค ์ ์๋ฏธํ๊ฒ ์ฐ์
ํค์๋ ๊ฒ์๊ณผ ์๋งจํฑ ๊ฒ์์ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ์ด Recall์์ 18.7%p ์ด์์ ์ฐจ์ด๋ฅผ ๋ง๋ ๋ค. MCP ์๋ฒ์ ์คํฌ ๊ฒ์ ๊ธฐ๋ฅ์ ๊ตฌํํ ๋ ๋ฐ๋์ ํ์ด๋ธ๋ฆฌ๋ ๊ฒ์์ ์ฑํํด์ผ ํ๋ค.
์์น 3: ์คํฌ ์๊ฐ ์ ๊ณ ํ์ง์ด ๋์ ๊ฒ์ด ์๊ฐ ๋ง๊ณ ํ์ง์ด ๋ฎ์ ๊ฒ๋ณด๋ค ๋ซ๋ค
๊ด๋ จ ์๋ ์คํฌ์ด ์ฑ๋ฅ์ ์คํ๋ ค ์ ํ์ํฌ ์ ์๋ค. ๊ธฐ์ ์คํฌ ์ ์ฅ์๋ ์๋ณด๋ค ์ง์ ์ถ๊ตฌํด์ผ ํ๋ฉฐ, ์๋ชป๋ ์คํฌ์ ๊ฑธ๋ฌ๋ผ ํ์ง ๊ด๋ฆฌ ํ๋ก์ธ์ค๊ฐ ํ์ํ๋ค.
์์น 4: ์ฟผ๋ฆฌ ํนํ ์ ์ ๋ฅผ ํ์ดํ๋ผ์ธ์ ํตํฉ
์์ด์ ํธ๊ฐ ํ์คํฌ๋ฅผ ๋ฐ์ผ๋ฉด ๋จผ์ ๊ด๋ จ ์คํฌ์ ๊ฒ์ํ๊ณ , ๊ทธ ์คํฌ๋ค๋ก ํ์คํฌ๋ฅผ ํ์ํ ํ, ์ ์ ๋ ์คํฌ์ ์์ฑํ์ฌ ์ต์ข ์คํ์ ์ฌ์ฉํ๋ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํ๋ฉด ์ฑ๋ฅ์ ์๋นํ ํฅ์์ํฌ ์ ์๋ค.
14.2 DataLens ๋ ์ด์ด์์ ์ฐ๊ด์ฑ
DataLens(S3 Iceberg, AWS Glue, Aurora PostgreSQL ์ฐ๋ ์์ฐ์ด ๋ฐ์ดํฐ ์ฟผ๋ฆฌ)์ ๊ฐ์ ํน์ ๋ชฉ์ AI ๊ธฐ๋ฅ์ ๊ตฌํํ ๋, ๋ฐ์ดํฐ ์ฟผ๋ฆฌ ํจํด, SQL ๊ด์ฉ๊ตฌ, ์คํค๋ง ์ ๋ณด๋ฅผ ๋ด์ ๋๋ฉ์ธ ํนํ ์คํฌ์ ๊ตฌ์ถํ๋ฉด ์ ์ฉํ๋ค. ์ด๋ ์ด ๋ ผ๋ฌธ์ ๋ฐ๊ฒฌ์ ๋ค์์ ์์ฌํ๋ค.
- ๋จ์ํ ๋ฒ์ฉ SQL ์คํฌ์ ๊ฒ์ํ๋ ๊ฒ์ ํฐ ํจ๊ณผ๊ฐ ์์ ์ ์๋ค
- ํน์ ๋ฐ์ดํฐ ์คํค๋ง์ ์ฟผ๋ฆฌ ํจํด์ ๋ง์ถคํ๋ ํ๋ ์ด์ ์คํฌ์ด ํจ์ฌ ํจ๊ณผ์ ์ด๋ค
- ์ฟผ๋ฆฌ ํนํ ์ ์ ๋ฅผ ํตํด ๊ฒ์๋ ๋ฒ์ฉ SQL ์คํฌ์ ์ค์ ์คํค๋ง์ ๋ง๊ฒ ์ ์์ํค๋ ์ ๋ต์ด ์ ํจํ ์ ์๋ค
14.3 Claude Code ์ฌ์ฉ์๋ฅผ ์ํ ์ค์ฉ์ ์์ฌ์
์ด ๋ ผ๋ฌธ์์ Claude Code v2.1.19์ Claude Opus 4.6์ ์กฐํฉํ ์คํ์ด ์งํ๋์๋ค๋ ์ ์, Claude Code ํค๋น ์ ์ ์๊ฒ ์ง์ ์ ์ธ ์ฐธ๊ณ ๋ฐ์ดํฐ๊ฐ ๋๋ค.
- Claude๋ ๊ด๋ จ ์๋ ์คํฌ์ ๋ฌด์ํ๋ ๋ฅ๋ ฅ์ด ์๋์ ์ผ๋ก ์ฐ์ํ๋ค
- ๊ทธ๋ฌ๋ ์คํฌ์ ๋ก๋ํ ์ง ๋ง์ง๋ฅผ ๊ฒฐ์ ํ๋ ๋ฅ๋ ฅ์ ์ฌ์ ํ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค (๋ก๋์จ 49%)
- ์คํฌ ์ค๋ช ์ ๋ช ํํ๊ฒ ์์ฑํ๋ฉด Claude์ ์คํฌ ์ ํ ์ ํ๋๋ฅผ ๋์ผ ์ ์๋ค
- Claude Code์์ skill-creator ๋ฉํ ์คํฌ์ ํ์ฉํ ์คํฌ ํ์ง ๊ฐ์ ์ด ์ค์ง์ ์ผ๋ก ํจ๊ณผ์ ์ด๋ค
15. ์ฐ๊ตฌ์ ํ๊ณ์ ํฅํ ๊ณผ์
15.1 ํ์ฌ ์ฐ๊ตฌ์ ํ๊ณ
์ด ์ฐ๊ตฌ๊ฐ ๋ช ์์ ์ผ๋ก ๋๋ ์๋ฌต์ ์ผ๋ก ์ธ์ ํ๋ ํ๊ณ๋ค์ด ์๋ค.
๋ฒค์น๋งํฌ ํ๊ณ: SkillsBench๋ 84๊ฐ ํ์คํฌ๋ก ์ ํ๋๋ฉฐ, ์ฃผ๋ก ์ฝ๋ฉ ๋ฐ ํฐ๋ฏธ๋ ๊ด๋ จ ํ์คํฌ์ ์ง์ค๋์ด ์๋ค. ๋ฌธ์ ์์ฑ, ์ด๋ฉ์ผ ๊ด๋ฆฌ, ๋ฐ์ดํฐ ์๊ฐํ ๋ฑ ๋ ๊ด๋ฒ์ํ ์์ด์ ํธ ์ฌ์ฉ ์ฌ๋ก์์์ ์คํฌ ์ ํธ๋ฆฌํฐ๋ ์์ง ๊ฒ์ฆ๋์ง ์์๋ค.
๋จ์ผ ๋ฐ๋ณต ์ ์ : ์ฟผ๋ฆฌ ํนํ ์ ์ ๋ ๋จ ํ ๋ฒ์ ๋ฐ๋ณต(single iteration)๋ง ์ ์ฉ๋๋ค. ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ๋ ํฅ์๋ ์ ์์ง๋ง, ๋น์ฉ๋ ์ฆ๊ฐํ ๊ฒ์ด๋ค.
์ ์ง ์ง์ค(Ground Truth) ๋ถ์ฌ: ์์ด์ ํธ๋ ์ ์ ์ค ์์ฒด ํ๊ฐ์ ์์กดํ๋ฉฐ, ์ ๋ต ๊ฒ์ฆ๊ธฐ์ ์ ๊ทผํ ์ ์๋ค. ์ด๋ ์์ด์ ํธ๊ฐ ์์ ์ ์๋ฃจ์ ์ ๊ณผ์ ํ๊ฑฐ๋ ์๋ชป ํ๊ฐํ ์ํ์ ๋ดํฌํ๋ค.
๋น์ฉ ๋ถ์ ๋ถ์ฌ: ์ฟผ๋ฆฌ ํนํ ์ ์ ๊ฐ ์ถ๋ก ์์ ์์ ์ ์ฒด ํ์ ๊ณผ์ ์ ์๊ตฌํ๋๋ฐ, ์ด์ ์ค์ ๋น์ฉ(ํ ํฐ, ์๊ฐ)์ ๋ํ ์ ๋์ ๋ถ์์ด ์ ๊ณต๋์ง ์๋๋ค.
15.2 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ด ๋ ผ๋ฌธ์ด ์ ์ํ๋ ํฅํ ๊ณผ์ ๋ค์ ์์ด์ ํฑ ์คํฌ ์ฐ๊ตฌ์ ๋ก๋๋งต์ ๊ตฌ์ฑํ๋ค.
๋ ๋์ ์คํฌ ๊ฒ์: ํ์ฌ ์ต๊ณ ์ฑ๋ฅ์ธ ์์ด์ ํฑ ํ์ด๋ธ๋ฆฌ๋ ๊ฒ์๋ Recall@5์์ 65.5%์ ๊ทธ์น๋ค. ๋ ๋ง์ ๊ฒฝ์ฐ์ ์ฌ๋ฐ๋ฅธ ์คํฌ์ ์ฐพ์๋ผ ์ ์๋ ์๋ก์ด ๊ฒ์ ํจ๋ฌ๋ค์์ด ํ์ํ๋ค.
๋ ํจ๊ณผ์ ์ธ ์คํ๋ผ์ธ ์ ์ : ์ฟผ๋ฆฌ ๋ถ๊ฐ์ง์ ์ ์ ์ ํจ๊ณผ๊ฐ ์ ํ์ ์ด์๋ค๋ ์ ์, ํ์คํฌ ์ธ์ ์์ด๋ ์คํฌ์ ๋ ๊ทผ๋ณธ์ ์ผ๋ก ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ์ด ํ์ํจ์ ์์ฌํ๋ค.
๋ชจ๋ธ ์ญ๋์ ๋ฐ๋ฅธ ์คํฌ ์ํ๊ณ ์ค๊ณ: ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๊ด๋ จ ์๋ ์คํฌ์ ๋ฌด์ํ ์ ์์ง๋ง, ์ฝํ ๋ชจ๋ธ์ ์คํ๋ ค ํผํด๋ฅผ ๋ฐ๋๋ค. ๋ชจ๋ธ ์ญ๋์ ๊ณ ๋ คํ ์คํฌ ์ํ๊ณ ์ค๊ณ ์์น์ด ํ์ํ๋ค.
๋ฉํฐ ์์ด์ ํธ ์คํฌ ํฉ์ฑ: ์ฌ๋ฌ ์์ด์ ํธ๊ฐ ํ๋ ฅํ์ฌ ์คํฌ ์ ์ ์ ํ์คํฌ ํด๊ฒฐ์ ๋ณ๋ ฌ๋ก ์ํํ๋ ์ํคํ ์ฒ๋ ๋น์ฉ๊ณผ ์ฑ๋ฅ ๊ฐ์ ํธ๋ ์ด๋์คํ๋ฅผ ๊ฐ์ ํ ์ ์๋ค.
์ฐธ๊ณ ๋ฐ ์ถ์ฒ
- ๋ ผ๋ฌธ ์๋ฌธ: https://arxiv.org/abs/2604.04323
- HTML ๋ฒ์ : https://arxiv.org/html/2604.04323v1
- ์ฝ๋ ๋ฐ ๋ฐ์ดํฐ: https://github.com/UCSB-NLP-Chang/Skill-Usage
- ์คํฌ ๋ฐ์ดํฐ์ : https://huggingface.co/datasets/Shiyu-Lab/Skill-Usage
- SkillsBench: https://www.skillsbench.ai
- Anthropic Agent Skills ํ์ค: https://agentskills.io/home
์์ฑ ์ผ์: 2026-04-16