ํฌ์ŠคํŠธ

๐Ÿ“„ ์—์ด์ „ํ‹ฑ ์Šคํ‚ฌ์€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ž‘๋™ํ•˜๋Š”๊ฐ€?

๐Ÿ“„ ์—์ด์ „ํ‹ฑ ์Šคํ‚ฌ์€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ž‘๋™ํ•˜๋Š”๊ฐ€?

์›์ œ: How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings
์ €์ž: Yujian Liu, Jiabao Ji, Li An, Tommi Jaakkola, Yang Zhang, Shiyu Chang
์†Œ์†: UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab
๊ฒŒ์žฌ: arXiv:2604.04323v1 (2026๋…„ 4์›” 6์ผ)
์ฝ”๋“œ: https://github.com/UCSB-NLP-Chang/Skill-Usage


๋ชฉ์ฐจ

  1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋™๊ธฐ
  2. ํ•ต์‹ฌ ๋ฌธ์ œ ์ œ๊ธฐ
  3. ์ฃผ์š” ์šฉ์–ด ์ •์˜
  4. ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก  ์ „์ฒด ๊ตฌ์กฐ
  5. ์Šคํ‚ฌ ์ปฌ๋ ‰์…˜ ๊ตฌ์ถ•
  6. ์Šคํ‚ฌ ๊ฒ€์ƒ‰ ์—”์ง„ ์„ค๊ณ„
  7. ๋‹จ๊ณ„์  ํ‰๊ฐ€ ์„ค์ • (Progressive Evaluation)
  8. ํ•ต์‹ฌ ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„
  9. ์Šคํ‚ฌ ์ •์ œ ์ „๋žต
  10. ์ •์ œ ๊ฒฐ๊ณผ ๋ฐ ํšจ๊ณผ
  11. Terminal-Bench 2.0 ์ผ๋ฐ˜ํ™” ๊ฒ€์ฆ
  12. ๊ด€๋ จ ์—ฐ๊ตฌ ์ƒํƒœ๊ณ„
  13. ๊ฒฐ๋ก  ๋ฐ ์‹œ์‚ฌ์ 
  14. ์‹ค๋ฌด ์ ์šฉ ๊ด€์  ๋ถ„์„
  15. ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„์™€ ํ–ฅํ›„ ๊ณผ์ œ

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋™๊ธฐ

1.1 LLM ์—์ด์ „ํŠธ์˜ ๋ถ€์ƒ

2026๋…„ ํ˜„์žฌ, LLM(๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋Š” ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ, ๋ฐ์ดํ„ฐ ๋ถ„์„, ๋ณต์žกํ•œ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™” ๋“ฑ ๋‹ค์–‘ํ•œ ์˜์—ญ์—์„œ ์‹ค์งˆ์ ์ธ ๋ณ€ํ™”๋ฅผ ์ด๋Œ๊ณ  ์žˆ๋‹ค. Claude Code, OpenAI Codex, Google Gemini CLI ๊ฐ™์€ ๋„๊ตฌ๋“ค์ด ์ด ๋ณ€ํ™”์˜ ์ค‘์‹ฌ์— ์žˆ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ์—์ด์ „ํŠธ๋“ค์ด ๋ณด๋‹ค ์ „๋ฌธํ™”๋œ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ์„œ ์—์ด์ „ํ‹ฑ ์Šคํ‚ฌ(Agentic Skills) ์ด ๊ธ‰์†๋„๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋‹ค.

์Šคํ‚ฌ์ด๋ž€ ๋„๋ฉ”์ธ ํŠนํ™” ์ง€์‹์„ ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ํŒจํ‚ค์ง•ํ•œ ์ง€์‹ ์•„ํ‹ฐํŒฉํŠธ๋กœ, ํŠน์ • API ์‚ฌ์šฉ ํŒจํ„ด, ์ฝ”๋”ฉ ์ปจ๋ฒค์…˜, ๋„๋ฉ”์ธ๋ณ„ ์›Œํฌํ”Œ๋กœ์šฐ, ๋ชจ๋ฒ” ์‚ฌ๋ก€ ๋“ฑ์„ ๊ตฌ์กฐํ™”ํ•˜์—ฌ ๋‹ด๊ณ  ์žˆ๋‹ค. Anthropic์ด ํ‘œ์ค€ ํฌ๋งท์„ ์ œ์•ˆํ•œ ์ดํ›„ skillhub.club, skills.sh ๊ฐ™์€ ์Šคํ‚ฌ ์ง‘๊ณ„ ํ”Œ๋žซํผ์ด ๋“ฑ์žฅํ•˜๊ณ , ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ์ˆ˜๋งŒ ๊ฐœ์˜ ์Šคํ‚ฌ์ด ๊ณต์œ ๋˜๋Š” ์ƒํƒœ๊ณ„๊ฐ€ ํ˜•์„ฑ๋˜์—ˆ๋‹ค.

1.2 ์™œ ์ง€๊ธˆ ์ด ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•œ๊ฐ€

์Šคํ‚ฌ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ์ฑ„ํƒ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์Šคํ‚ฌ์ด ์‹ค์ œ๋กœ ์—์ด์ „ํŠธ์˜ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š”์ง€์— ๋Œ€ํ•œ ์—„๋ฐ€ํ•œ ํ‰๊ฐ€๋Š” ๋†€๋ž๋„๋ก ๋ถ€์กฑํ–ˆ๋‹ค. ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์ธ SkillsBench(Li et al., 2026)๊ฐ€ ์Šคํ‚ฌ์˜ ํšจ๊ณผ๋ฅผ ์ฒ˜์Œ์œผ๋กœ ์ •๋Ÿ‰ํ™”ํ•˜๋ ค ํ–ˆ์ง€๋งŒ, ๊ทธ ์„ค๊ณ„ ๋ฐฉ์‹์—๋Š” ํ˜„์‹ค๊ณผ ๋™๋–จ์–ด์ง„ ์‹ฌ๊ฐํ•œ ๊ฐ€์ •์ด ๋‚ดํฌ๋˜์–ด ์žˆ์—ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ ๋ฐ”๋กœ ๊ทธ ๊ฐ„๊ทน์„ ๋ฉ”์šฐ๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ–ˆ๋‹ค. โ€œ์ด์ƒ์ ์ธ ์กฐ๊ฑดโ€์ด ์•„๋‹Œ, ์‹ค์ œ ์šด์˜ ํ™˜๊ฒฝ์—์„œ ์Šคํ‚ฌ์ด ์–ผ๋งˆ๋‚˜ ๋„์›€์ด ๋˜๋Š”์ง€๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ธก์ •ํ•˜๊ณ ์ž ํ•œ ๊ฒƒ์ด๋‹ค.


2. ํ•ต์‹ฌ ๋ฌธ์ œ ์ œ๊ธฐ

2.1 ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์˜ ๋‘ ๊ฐ€์ง€ ๊ทผ๋ณธ์  ๋ฌธ์ œ

๊ธฐ์กด SkillsBench์˜ ํ‰๊ฐ€ ๋ฐฉ์‹์€ ๋‘ ๊ฐ€์ง€ ์ธก๋ฉด์—์„œ ํ˜„์‹ค๊ณผ ๋™๋–จ์–ด์ ธ ์žˆ์—ˆ๋‹ค.

๋ฌธ์ œ โ‘ : ์Šคํ‚ฌ์ด ํƒœ์Šคํฌ์— ๊ณผ์ ํ•ฉ(overfit)๋˜์–ด ์žˆ์Œ

SkillsBench์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์Šคํ‚ฌ๋“ค์€ ๊ฐ ํ‰๊ฐ€ ํƒœ์Šคํฌ์— ๋งž๊ฒŒ ์ˆ˜์ž‘์—…์œผ๋กœ ์ œ์ž‘๋œ, ์‚ฌ์‹ค์ƒ โ€œ์ •๋‹ต ๊ฐ€์ด๋“œโ€์— ๊ฐ€๊นŒ์šด ๊ฒƒ๋“ค์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด USGS ๊ธฐ์ƒ ๊ด€์ธก์†Œ์˜ ํ™์ˆ˜ ์ผ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ํƒœ์Šคํฌ์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ธ ๊ฐœ์˜ ์Šคํ‚ฌ์ด ์ œ๊ณต๋œ๋‹ค.

  • USGS API์—์„œ ์ˆ˜์œ„ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์šด๋กœ๋“œํ•˜๋Š” ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ•์„ ๋‹ด์€ ์Šคํ‚ฌ
  • NWS(๋ฏธ๊ตญ ๊ธฐ์ƒ์ฒญ) ํ™์ˆ˜ ์ž„๊ณ„๊ฐ’ ๋ฐ์ดํ„ฐ์˜ ์ •ํ™•ํ•œ URL์„ ๋‹ด์€ ์Šคํ‚ฌ
  • ํ™์ˆ˜ ์ผ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์ฝ”๋“œ ์Šค๋‹ˆํŽซ์„ ๋‹ด์€ ์Šคํ‚ฌ

์ด ์„ธ ๊ฐ€์ง€๋ฅผ ํ•ฉ์น˜๋ฉด ์‚ฌ์‹ค์ƒ ํƒœ์Šคํฌ์˜ ํ’€์ด ๋ฐฉ๋ฒ• ์ „์ฒด๊ฐ€ ๊ณต๊ฐœ๋˜๋Š” ์…ˆ์ด๋‹ค. ์ด๋Š” โ€œ์Šคํ‚ฌ์ด ๋„์›€์ด ๋˜๋Š”๊ฐ€โ€๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, โ€œ์ •๋‹ต์ง€๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์—์ด์ „ํŠธ๊ฐ€ ์ž˜ ๋”ฐ๋ผ ํ•˜๋Š”๊ฐ€โ€๋ฅผ ์ธก์ •ํ•˜๋Š” ๊ฒƒ์— ๋ถˆ๊ณผํ•˜๋‹ค.

๋ฌธ์ œ โ‘ก: ์Šคํ‚ฌ์ด ๋ฏธ๋ฆฌ ์—์ด์ „ํŠธ ์ปจํ…์ŠคํŠธ์— ์ฃผ์ž…๋จ

ํ˜„์‹ค์—์„œ ์—์ด์ „ํŠธ๋Š” ์ˆ˜๋งŽ์€ ์Šคํ‚ฌ ์ €์žฅ์†Œ ์ค‘์—์„œ ์ž์‹ ์—๊ฒŒ ํ•„์š”ํ•œ ์Šคํ‚ฌ์„ ์Šค์Šค๋กœ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋Š” ๊ด€๋ จ ์Šคํ‚ฌ์„ ์—์ด์ „ํŠธ์˜ ์ปจํ…์ŠคํŠธ์— ์ด๋ฏธ ๋„ฃ์–ด๋‘๋Š” ๋ฐฉ์‹์œผ๋กœ, ์‹ค์ œ ๊ฒ€์ƒ‰ ๊ณผ์ •์˜ ์–ด๋ ค์›€์„ ์™„์ „ํžˆ ๋ฌด์‹œํ•˜๊ณ  ์žˆ์—ˆ๋‹ค.

2.2 ํ•ต์‹ฌ ์—ฐ๊ตฌ ์งˆ๋ฌธ

์Šคํ‚ฌ์ด ํ˜„์‹ค์ ์ธ ์กฐ๊ฑด, ์ฆ‰ ์—์ด์ „ํŠธ๊ฐ€ ๋Œ€๊ทœ๋ชจ ๋…ธ์ด์ฆˆ ํ’€์—์„œ ์Šคํ‚ฌ์„ ์ง์ ‘ ๊ฒ€์ƒ‰ํ•ด์•ผ ํ•˜๊ณ , ํƒœ์Šคํฌ์— ํŠนํ™”๋˜์ง€ ์•Š์€ ๋ฒ”์šฉ ์Šคํ‚ฌ๋งŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์„ ๋•Œ์—๋„ ๋„์›€์ด ๋˜๋Š”๊ฐ€?


3. ์ฃผ์š” ์šฉ์–ด ์ •์˜

์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ํ•ต์‹ฌ ์šฉ์–ด๋“ค์„ ๋ช…ํ™•ํžˆ ์ •์˜ํ•œ๋‹ค.

์šฉ์–ด์ •์˜
์—์ด์ „ํ‹ฑ ์Šคํ‚ฌ (Agentic Skill)SKILL.md ํŒŒ์ผ๊ณผ ์„ ํƒ์  ๋ณด์กฐ ํŒŒ์ผ๋กœ ๊ตฌ์„ฑ๋œ ํŒŒ์ผ์‹œ์Šคํ…œ ๊ธฐ๋ฐ˜ ์ง€์‹ ์•„ํ‹ฐํŒฉํŠธ. ๋„๋ฉ”์ธ ํŠนํ™” ์›Œํฌํ”Œ๋กœ์šฐ, API ์‚ฌ์šฉ๋ฒ•, ์ฝ”๋”ฉ ํŒจํ„ด ๋“ฑ์„ ๊ตฌ์กฐํ™”ํ•˜์—ฌ ๋‹ด์Œ
์Šคํ‚ฌ ์„ ํƒ (Skill Selection)์ œ๊ณต๋œ ์Šคํ‚ฌ ๋ชฉ๋ก ์ค‘ ํ˜„์žฌ ํƒœ์Šคํฌ์— ์œ ์šฉํ•œ ์Šคํ‚ฌ์„ ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ ํŒ๋‹จํ•˜์—ฌ ๋กœ๋“œํ•˜๋Š” ํ–‰์œ„
์Šคํ‚ฌ ๊ฒ€์ƒ‰ (Skill Retrieval)๋Œ€๊ทœ๋ชจ ์Šคํ‚ฌ ์ €์žฅ์†Œ์—์„œ ํ˜„์žฌ ํƒœ์Šคํฌ์™€ ๊ด€๋ จ์„ฑ ๋†’์€ ์Šคํ‚ฌ์„ ์ฐพ์•„๋‚ด๋Š” ํ–‰์œ„
์Šคํ‚ฌ ์ ์‘ (Skill Adaptation)ํƒœ์Šคํฌ์— ๋งž์ถคํ™”๋˜์ง€ ์•Š์€ ๋ฒ”์šฉ ์Šคํ‚ฌ์—์„œ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ํ–‰์œ„
Pass Rate์—์ด์ „ํŠธ๊ฐ€ ์ฃผ์–ด์ง„ ํƒœ์Šคํฌ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์™„๋ฃŒํ•œ ๋น„์œจ
Recall@k๊ฒ€์ƒ‰๋œ ์ƒ์œ„ k๊ฐœ ๊ฒฐ๊ณผ ์ค‘ ์ •๋‹ต ์Šคํ‚ฌ์ด ํฌํ•จ๋œ ๋น„์œจ
์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ (Query-specific Refinement)ํ˜„์žฌ ํƒœ์Šคํฌ๋ฅผ ์ง์ ‘ ํƒ์ƒ‰ํ•œ ํ›„ ์Šคํ‚ฌ์„ ๊ฐœ์„ ํ•˜๋Š” ์ „๋žต
์ฟผ๋ฆฌ ๋ถˆ๊ฐ€์ง€์  ์ •์ œ (Query-agnostic Refinement)ํƒœ์Šคํฌ ์ •๋ณด ์—†์ด ์˜คํ”„๋ผ์ธ์œผ๋กœ ์Šคํ‚ฌ์„ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ์ „๋žต

4. ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก  ์ „์ฒด ๊ตฌ์กฐ

์ด ์—ฐ๊ตฌ์˜ ์ „์ฒด ๊ตฌ์กฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์š”์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค.

flowchart TD
    A[์—ฐ๊ตฌ ์‹œ์ž‘: ํ˜„์‹ค์  ์กฐ๊ฑด์—์„œ ์Šคํ‚ฌ ์œ ์šฉ์„ฑ ์ธก์ •] --> B[34k ์‹ค์„ธ๊ณ„ ์Šคํ‚ฌ ์ปฌ๋ ‰์…˜ ๊ตฌ์ถ•]
    B --> C[์Šคํ‚ฌ ๊ฒ€์ƒ‰ ์—”์ง„ ๊ฐœ๋ฐœ]
    C --> D{๊ฒ€์ƒ‰ ๋ฐฉ๋ฒ• ๋น„๊ต}
    D --> D1[ํ‚ค์›Œ๋“œ ๊ฒ€์ƒ‰ BM25]
    D --> D2[์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰ Dense Embedding]
    D --> D3[ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ฒ€์ƒ‰ RRF]
    D --> D4[์—์ด์ „ํ‹ฑ ๊ฒ€์ƒ‰ ๋ฐ˜๋ณต ํƒ์ƒ‰]
    D4 --> E[๋‹จ๊ณ„์  ํ‰๊ฐ€ ์„ค์ • Progressive Evaluation]
    E --> E1[ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ + ๊ฐ•์ œ ๋กœ๋“œ]
    E --> E2[ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ]
    E --> E3[ํ๋ ˆ์ด์…˜ + ๋ฐฉํ•ด ์Šคํ‚ฌ]
    E --> E4[๊ฒ€์ƒ‰ ๋ฐฉ์‹ - ํ๋ ˆ์ด์…˜ ํฌํ•จ]
    E --> E5[๊ฒ€์ƒ‰ ๋ฐฉ์‹ - ํ๋ ˆ์ด์…˜ ์ œ์™ธ]
    E --> E6[์Šคํ‚ฌ ์—†์Œ baseline]
    E5 --> F{์„ฑ๋Šฅ ์ €ํ•˜ ํ™•์ธ}
    F --> G[์Šคํ‚ฌ ์ •์ œ ์ „๋žต ์—ฐ๊ตฌ]
    G --> G1[์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ Query-specific]
    G --> G2[์ฟผ๋ฆฌ ๋ถˆ๊ฐ€์ง€์  ์ •์ œ Query-agnostic]
    G1 --> H[Terminal-Bench 2.0 ์ผ๋ฐ˜ํ™” ๊ฒ€์ฆ]
    G2 --> H
    H --> I[์ตœ์ข… ๊ฒฐ๋ก  ๋ฐ ์‹œ์‚ฌ์ ]

5. ์Šคํ‚ฌ ์ปฌ๋ ‰์…˜ ๊ตฌ์ถ•

5.1 ๋ฐ์ดํ„ฐ ์ถœ์ฒ˜ ๋ฐ ํ•„ํ„ฐ๋ง

๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ธฐ๋ฐ˜ ์ค‘ ํ•˜๋‚˜๋Š” 34,198๊ฐœ์˜ ์‹ค์„ธ๊ณ„ ์Šคํ‚ฌ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ์ปฌ๋ ‰์…˜์˜ ๊ตฌ์ถ•์ด๋‹ค. ์ด ์ปฌ๋ ‰์…˜์€ ๋‘ ๊ฐœ์˜ ์Šคํ‚ฌ ์ง‘๊ณ„ ํ”Œ๋žซํผ์ธ skillhub.club๊ณผ skills.sh์—์„œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•œ ํ›„, ๊ฐ ์Šคํ‚ฌ์˜ ์›๋ณธ GitHub ์ €์žฅ์†Œ์—์„œ SKILL.md ํŒŒ์ผ๊ณผ ๋ณด์กฐ ํŒŒ์ผ ์ „์ฒด๋ฅผ ๋‹ค์šด๋กœ๋“œํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ๋‹ค.

์ˆ˜์ง‘๋œ ์Šคํ‚ฌ๋“ค์€ ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ๊ธฐ์ค€์œผ๋กœ ํ•„ํ„ฐ๋ง๋˜์—ˆ๋‹ค.

์ฒซ์งธ, ๋ผ์ด์„ ์Šค ์กฐ๊ฑด: MIT ๋˜๋Š” Apache 2.0 ๊ฐ™์€ ํ—ˆ์šฉ์  ์˜คํ”ˆ์†Œ์Šค ๋ผ์ด์„ ์Šค๋ฅผ ๊ฐ€์ง„ ์Šคํ‚ฌ๋งŒ ํฌํ•จํ•˜์—ฌ ์žฌ๋ฐฐํฌ ๊ถŒ๋ฆฌ๋ฅผ ํ™•๋ณดํ–ˆ๋‹ค. ์ด ๊ธฐ์ค€์€ ์—ฐ๊ตฌ ์œค๋ฆฌ ์ธก๋ฉด์—์„œ๋„ ์ค‘์š”ํ•˜๋‹ค.

๋‘˜์งธ, ํ˜•์‹ ํ’ˆ์งˆ: ์Šคํ‚ฌ ์ด๋ฆ„์ด๋‚˜ ์„ค๋ช…์ด ๋น„์–ด ์žˆ๋Š” ์ž˜๋ชป๋œ ํ˜•์‹์˜ ์Šคํ‚ฌ์€ ์ œ์™ธํ–ˆ๋‹ค. ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์€ ์Šคํ‚ฌ์€ ๊ฒ€์ƒ‰ ์—”์ง„์˜ ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์…‹์งธ, ์ค‘๋ณต ์ œ๊ฑฐ: ํŒŒ์ผ ๋‚ด์šฉ ๊ธฐ์ค€์œผ๋กœ ์ค‘๋ณต๋œ ์Šคํ‚ฌ์„ ์ œ๊ฑฐํ–ˆ๋‹ค. ์—ฌ๋Ÿฌ ์ €์žฅ์†Œ์—์„œ ๋™์ผํ•œ ์Šคํ‚ฌ์ด ๋ณต์‚ฌ๋˜์–ด ๋ฐฐํฌ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ตœ์ข… ์ปฌ๋ ‰์…˜์€ ์›น ๊ฐœ๋ฐœ, ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง, DevOps, ๊ณผํ•™ ์ปดํ“จํŒ… ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์— ๊ฑธ์ณ ๋ถ„ํฌ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์‹ค์ œ ์‚ฌ์šฉ์ž๋“ค์ด ํ™œ์šฉํ•˜๋Š” ์Šคํ‚ฌ ์ƒํƒœ๊ณ„๋ฅผ ์ƒ๋‹นํžˆ ์ถฉ์‹คํ•˜๊ฒŒ ๋Œ€ํ‘œํ•œ๋‹ค.

5.2 ์ปฌ๋ ‰์…˜์˜ ์˜์˜

34k ๊ทœ๋ชจ์˜ ์Šคํ‚ฌ ์ปฌ๋ ‰์…˜์€ ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์˜ ๋ฌธ์ œ๊ฐ€ ์•„๋‹ˆ๋ผ, โ€œ์‹ค์ œ ๊ฒ€์ƒ‰ ์‹œ ๋…ธ์ด์ฆˆ์™€ ๋ถ€์ •ํ™•ํ•œ ๋งค์นญโ€์˜ ๋ฌธ์ œ๋ฅผ ๋„์ž…ํ•œ๋‹ค๋Š” ์ ์—์„œ ์ค‘์š”ํ•˜๋‹ค. ์–ด๋–ค ํŠน์ • ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ์ด 34k ํ’€์—์„œ ์™„๋ฒฝํ•˜๊ฒŒ ๋งž์ถคํ™”๋œ ์Šคํ‚ฌ์„ ์ฐพ์„ ๊ฐ€๋Šฅ์„ฑ์€ ๊ทนํžˆ ๋‚ฎ๋‹ค. ์ด๊ฒƒ์ด ๋ฐ”๋กœ ํ˜„์‹ค์ด๋ฉฐ, ์ด ๋…ผ๋ฌธ์ด ์ธก์ •ํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.


6. ์Šคํ‚ฌ ๊ฒ€์ƒ‰ ์—”์ง„ ์„ค๊ณ„

6.1 ์ธ๋ฑ์‹ฑ ๊ตฌ์กฐ

๊ฐ ์Šคํ‚ฌ์€ ๋‘ ๊ฐ€์ง€ ํ‘œํ˜„ ๋ฐฉ์‹์œผ๋กœ ์ธ๋ฑ์‹ฑ๋œ๋‹ค.

  • ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ธ๋ฑ์Šค: ์Šคํ‚ฌ์˜ ์ด๋ฆ„๊ณผ ์„ค๋ช…์„ ์—ฐ๊ฒฐํ•œ ํ…์ŠคํŠธ
  • ์ „์ฒด ์ฝ˜ํ…์ธ  ์ธ๋ฑ์Šค: SKILL.md ํŒŒ์ผ์˜ ์ „์ฒด ๋‚ด์šฉ

๋ฐ€์ง‘ ์ž„๋ฒ ๋”ฉ(Dense Embedding)์—๋Š” Qwen3-Embedding-4B ๋ชจ๋ธ์ด ์‚ฌ์šฉ๋˜์—ˆ๊ณ , ํฌ์†Œ ํ‚ค์›Œ๋“œ ๋งค์นญ์—๋Š” BM25๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ SQLite FTS5 ์ „๋ฌธ ๊ฒ€์ƒ‰ ์ธ๋ฑ์Šค๋ฅผ ๊ตฌ์ถ•ํ–ˆ์œผ๋ฉฐ, BM25 ๋žญํ‚น์—์„œ ํ•„๋“œ ๊ฐ€์ค‘์น˜๋Š” ์ด๋ฆ„ 10, ์„ค๋ช… 5, ์ „์ฒด ์ฝ˜ํ…์ธ  5๋ฅผ ์ ์šฉํ–ˆ๋‹ค.

6.2 ๊ฒ€์ƒ‰ ๋ฐฉ๋ฒ• ๋น„๊ต

์—ฐ๊ตฌํŒ€์€ ๋ณต์žก๋„๊ฐ€ ์ฆ๊ฐ€ํ•˜๋Š” ๋„ค ๊ฐ€์ง€ ๊ฒ€์ƒ‰ ์ „๋žต์„ ๋น„๊ตํ–ˆ๋‹ค.

์ง์ ‘ ๊ฒ€์ƒ‰ (Direct Search)

ํƒœ์Šคํฌ ์„ค๋ช… ์ž์ฒด๋ฅผ ์ฟผ๋ฆฌ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ธ๋ฑ์Šค์—์„œ ์ƒ์œ„ k๊ฐœ ์Šคํ‚ฌ์„ ๋ฐ€์ง‘ ์ž„๋ฒ ๋”ฉ ์œ ์‚ฌ๋„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฒ€์ƒ‰ํ•˜๋Š” ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ๋ฐฉ์‹์ด๋‹ค. ์‚ฌ๋žŒ์˜ ๊ฐœ์ž…์ด๋‚˜ ๋ฐ˜๋ณต์ ์ธ ์ฟผ๋ฆฌ ์กฐ์ • ์—†์ด ๋‹จ์ผ ๊ฒ€์ƒ‰์œผ๋กœ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•œ๋‹ค.

์—์ด์ „ํ‹ฑ ๊ฒ€์ƒ‰ - ํ‚ค์›Œ๋“œ (Agentic Search - Keyword)

์—์ด์ „ํŠธ๊ฐ€ BM25 ๊ธฐ๋ฐ˜ ํ‚ค์›Œ๋“œ ๊ฒ€์ƒ‰ ๋„๊ตฌ์—๋งŒ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์กฐ์ •ํ•˜๊ณ  ํ›„๋ณด ์Šคํ‚ฌ์˜ ๊ด€๋ จ์„ฑ์„ ์ง์ ‘ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

์—์ด์ „ํ‹ฑ ๊ฒ€์ƒ‰ - ์‹œ๋งจํ‹ฑ (Agentic Search - Semantic)

์—์ด์ „ํŠธ๊ฐ€ ๋ฐ€์ง‘ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜ ์˜๋ฏธ๋ก ์  ๊ฒ€์ƒ‰ ๋„๊ตฌ์—๋งŒ ์ ‘๊ทผํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰์€ ๋ช…ํ™•ํ•œ ํ‚ค์›Œ๋“œ๊ฐ€ ์—†์–ด๋„ ๊ฐœ๋…์  ์œ ์‚ฌ์„ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ด€๋ จ ์Šคํ‚ฌ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.

์—์ด์ „ํ‹ฑ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ฒ€์ƒ‰ (Agentic Hybrid Search)

ํ‚ค์›Œ๋“œ ๊ฒ€์ƒ‰, ์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋„๊ตฌ(๋‘ ์ ์ˆ˜๋ฅผ ๊ฒฐํ•ฉ) ๋ชจ๋‘์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, RRF(Reciprocal Rank Fusion) ๋ฐฉ์‹์œผ๋กœ ์ ์ˆ˜๋ฅผ ํ†ตํ•ฉํ•œ๋‹ค. RRF ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

\[\text{RRF Score} = \sum_s \frac{w_s}{k + r_s}\]

์—ฌ๊ธฐ์„œ $r_s$๋Š” ๊ฒ€์ƒ‰ ๋ฐฉ๋ฒ• $s$์—์„œ์˜ ์ˆœ์œ„, $w_s$๋Š” ๋ฐฉ๋ฒ• ๊ฐ€์ค‘์น˜, $k=60$์€ ์œตํ•ฉ ์ƒ์ˆ˜๋‹ค. โ€œhybrid w/ contentโ€ ๋ณ€ํ˜•์—์„œ๋Š” ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ์™€ ์ „์ฒด ์ฝ˜ํ…์ธ  ์ž„๋ฒ ๋”ฉ ์œ ์‚ฌ๋„์˜ ๊ฐ€์ค‘ ํ‰๊ท ๋„ ํ™œ์šฉํ•œ๋‹ค.

graph LR
    Query[์‚ฌ์šฉ์ž ์ฟผ๋ฆฌ/ํƒœ์Šคํฌ] --> KW[ํ‚ค์›Œ๋“œ ๊ฒ€์ƒ‰\nBM25/FTS5]
    Query --> SEM[์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰\nQwen3-Embedding-4B]
    KW --> RRF[RRF ์œตํ•ฉ]
    SEM --> RRF
    RRF --> TOP[์ƒ์œ„ k๊ฐœ ์Šคํ‚ฌ ํ›„๋ณด]
    TOP --> AGENT[์—์ด์ „ํŠธ ํŒ๋‹จ\n๊ด€๋ จ์„ฑ ํ‰๊ฐ€]
    AGENT --> |์ฟผ๋ฆฌ ์กฐ์ •| Query
    AGENT --> FINAL[์ตœ์ข… ์„ ํƒ ์Šคํ‚ฌ]

6.3 ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ ๋น„๊ต ๊ฒฐ๊ณผ

Recall@k ์ง€ํ‘œ(์ƒ์œ„ k๊ฐœ ๊ฒฐ๊ณผ์— ์ •๋‹ต ์Šคํ‚ฌ์ด ํฌํ•จ๋œ ๋น„์œจ)๋กœ ์ธก์ •ํ•œ ๊ฒฐ๊ณผ, ์—์ด์ „ํ‹ฑ ๊ฒ€์ƒ‰์ด ์ง์ ‘ ๊ฒ€์ƒ‰๋ณด๋‹ค ํ˜„์ €ํžˆ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๋™์ผํ•œ ์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ์—์ด์ „ํ‹ฑ ๊ฒ€์ƒ‰์€ Recall@3์—์„œ ์ง์ ‘ ๊ฒ€์ƒ‰๋ณด๋‹ค 18.7 ํผ์„ผํŠธ ํฌ์ธํŠธ ๋†’์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ๋‹ค.

์—์ด์ „ํŠธ๊ฐ€ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ฟผ๋ฆฌ๋ฅผ ์กฐ์ •ํ•˜๊ณ , ๋ฐ˜ํ™˜๋œ ํ›„๋ณด๋ฅผ ์ ๊ฒ€ํ•˜๋ฉฐ, ๋‹จ์ผ ๊ณ ์ • ์ฟผ๋ฆฌ๋ฅผ ๋„˜์–ด์„œ๋Š” ๊ฒ€์ƒ‰ ์ „๋žต์„ ๊ตฌ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ ์ด์œ ๋‹ค. ๋˜ํ•œ ์ „์ฒด ์ฝ˜ํ…์ธ  ์ธ๋ฑ์Šค๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด ๋†’์€ k ๊ฐ’์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋‚˜ํƒ€๋‚ฌ๋‹ค(Recall@5: 63.5% โ†’ 65.5%, Recall@10: 66.7% โ†’ 68.3%).


7. ๋‹จ๊ณ„์  ํ‰๊ฐ€ ์„ค์ •

์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์—ฌ ์ค‘ ํ•˜๋‚˜๋Š” ์ด์ƒ์  ์กฐ๊ฑด์—์„œ ํ˜„์‹ค์  ์กฐ๊ฑด์œผ๋กœ ์ ์ง„์ ์œผ๋กœ ์ด๋™ํ•˜๋Š” 6๋‹จ๊ณ„ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์„ค๊ณ„๋‹ค.

flowchart LR
    S1["โ‘  ํ๋ ˆ์ด์…˜ + ๊ฐ•์ œ ๋กœ๋“œ\n(์ด์ƒ์  ์ƒํ•œ์„ )"]
    S2["โ‘ก ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ\n(์ž์œจ ์„ ํƒ)"]
    S3["โ‘ข ํ๋ ˆ์ด์…˜ + ๋ฐฉํ•ด ์Šคํ‚ฌ\n(์„ ํƒ ๋‚œ์ด๋„ ์ฆ๊ฐ€)"]
    S4["โ‘ฃ ๊ฒ€์ƒ‰ ๋ฐฉ์‹\n(ํ๋ ˆ์ด์…˜ ํฌํ•จ)"]
    S5["โ‘ค ๊ฒ€์ƒ‰ ๋ฐฉ์‹\n(ํ๋ ˆ์ด์…˜ ์ œ์™ธ)"]
    S6["โ‘ฅ ์Šคํ‚ฌ ์—†์Œ\n(baseline)"]

    S1 --> |"์Šคํ‚ฌ ์„ ํƒ ๋„์ „ ๋„์ž…"| S2
    S2 --> |"๋ฐฉํ•ด ์Šคํ‚ฌ ์ถ”๊ฐ€"| S3
    S3 --> |"์Šคํ‚ฌ ๊ฒ€์ƒ‰ ๋„์ „ ๋„์ž…"| S4
    S4 --> |"์Šคํ‚ฌ ์ ์‘ ๋„์ „ ๋„์ž…"| S5
    S5 -.-> |"๋น„๊ต ๊ธฐ์ค€"| S6

    style S1 fill:#4CAF50,color:#fff
    style S6 fill:#F44336,color:#fff
    style S5 fill:#FF9800,color:#fff

๊ฐ ๋‹จ๊ณ„๋ฅผ ๊ตฌ์ฒด์ ์œผ๋กœ ์„ค๋ช…ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

โ‘  ํ๋ ˆ์ด์…˜ + ๊ฐ•์ œ ๋กœ๋“œ (Curated + Forced Load)

์—์ด์ „ํŠธ์˜ ํ™˜๊ฒฝ์— ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ์ œ๊ณต๋˜๊ณ , ์—์ด์ „ํŠธ๋Š” ์ด๋ฅผ ๋ชจ๋‘ ๋กœ๋“œํ•˜๋„๋ก ๋ช…์‹œ์ ์œผ๋กœ ์ง€์‹œ๋ฐ›๋Š”๋‹ค. ์„ธ ๊ฐ€์ง€ ๋„์ „ ๊ณผ์ œ๋ฅผ ๋ชจ๋‘ ์šฐํšŒํ•˜๋ฏ€๋กœ, ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ ์œ ์šฉ์„ฑ์˜ ์ƒํ•œ์„ ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

โ‘ก ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ (Curated)

SkillsBench์˜ ์›๋ž˜ ์„ค์ •๊ณผ ๋™์ผํ•˜๋‹ค. ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ์ œ๊ณต๋˜์ง€๋งŒ, ์–ด๋–ค ์Šคํ‚ฌ์„ ์–ธ์ œ ๋กœ๋“œํ• ์ง€๋Š” ์—์ด์ „ํŠธ ์ž์‹ ์˜ ํŒ๋‹จ์— ๋งก๊ธด๋‹ค. ์Šคํ‚ฌ ์„ ํƒ์˜ ์–ด๋ ค์›€์„ ๋„์ž…ํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ํ˜„์‹คํ™” ๋‹จ๊ณ„๋‹ค.

โ‘ข ํ๋ ˆ์ด์…˜ + ๋ฐฉํ•ด ์Šคํ‚ฌ (Curated + Distractors)

ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์€ ์—ฌ์ „ํžˆ ์ œ๊ณต๋˜์ง€๋งŒ, 34k ์ปฌ๋ ‰์…˜์—์„œ ์—์ด์ „ํ‹ฑ ๊ฒ€์ƒ‰์œผ๋กœ ๊ฐ€์ ธ์˜จ ๋ฐฉํ•ด ์Šคํ‚ฌ๋“ค์ด ์ถ”๊ฐ€๋œ๋‹ค. ์ „์ฒด ์Šคํ‚ฌ ์ˆ˜๋Š” 5๊ฐœ๋กœ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•œ๋‹ค. ์—์ด์ „ํŠธ๋Š” ๋…ธ์ด์ฆˆ ์†์—์„œ ์œ ์šฉํ•œ ์Šคํ‚ฌ์„ ๊ฐ€๋ ค๋‚ด์•ผ ํ•œ๋‹ค.

โ‘ฃ ๊ฒ€์ƒ‰ ๋ฐฉ์‹ - ํ๋ ˆ์ด์…˜ ํฌํ•จ (Retrieved w/ Curated)

์—์ด์ „ํŠธ๋Š” ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ํฌํ•จ๋œ 34k ์ปฌ๋ ‰์…˜์—์„œ ์ƒ์œ„ 5๊ฐœ ์Šคํ‚ฌ์„ ์ง์ ‘ ๊ฒ€์ƒ‰ํ•ด์•ผ ํ•œ๋‹ค. ์Šคํ‚ฌ ์„ ํƒ์˜ ์–ด๋ ค์›€์— ๊ฒ€์ƒ‰ ์ž์ฒด์˜ ์–ด๋ ค์›€์ด ์ถ”๊ฐ€๋œ๋‹ค.

โ‘ค ๊ฒ€์ƒ‰ ๋ฐฉ์‹ - ํ๋ ˆ์ด์…˜ ์ œ์™ธ (Retrieved w/o Curated)

ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ์—†๋Š” 34k ์ปฌ๋ ‰์…˜์—์„œ๋งŒ ๊ฒ€์ƒ‰ํ•œ๋‹ค. ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ์ œ์ž‘๋œ ์Šคํ‚ฌ์ด ์กด์žฌํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ, ์—์ด์ „ํŠธ๋Š” ๋ถ€๋ถ„์ ์œผ๋กœ๋งŒ ๊ด€๋ จ๋œ ๋ฒ”์šฉ ์Šคํ‚ฌ์„ ํ™œ์šฉํ•ด์•ผ ํ•œ๋‹ค. ์Šคํ‚ฌ ์ ์‘์˜ ๋„์ „๊นŒ์ง€ ๋ชจ๋‘ ํฌํ•จ๋˜๋Š” ๊ฐ€์žฅ ํ˜„์‹ค์ ์ธ ์„ค์ •์ด๋‹ค.

โ‘ฅ ์Šคํ‚ฌ ์—†์Œ (No Skills)

๋น„๊ต ๊ธฐ์ค€์„ . ์Šคํ‚ฌ ์—†์ด ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค.


8. ํ•ต์‹ฌ ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

8.1 ํ‰๊ฐ€ ๋ชจ๋ธ ๋ฐ ํ™˜๊ฒฝ

์„ธ ๊ฐ€์ง€ ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ์„ ๊ฐ๊ฐ์˜ ๋„ค์ดํ‹ฐ๋ธŒ ์—์ด์ „ํŠธ ํ•˜๋„ค์Šค์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ํ‰๊ฐ€ํ–ˆ๋‹ค.

๋ชจ๋ธ์—์ด์ „ํŠธ ํ•˜๋„ค์Šค์„ฑ๊ฒฉ
Claude Opus 4.6Claude Code v2.1.19์ตœ๊ณ  ์ˆ˜์ค€ ๋…์  ๋ชจ๋ธ
Kimi K2.5Terminus-2๊ฐ•๋ ฅํ•œ ๋…์  ๋ชจ๋ธ
Qwen3.5-397B-A17BQwen-Code v0.12.3๊ฐ•๋ ฅํ•œ ์˜คํ”ˆ์›จ์ดํŠธ ๋ชจ๋ธ

๋ชจ๋“  ์‹คํ—˜์€ ๊ฒฉ๋ฆฌ๋œ Docker ์ปจํ…Œ์ด๋„ˆ์—์„œ ๊ฐ ์กฐ๊ฑด๋‹น 3ํšŒ ๋ฐ˜๋ณต ์‹คํ–‰๋˜์—ˆ๋‹ค.

8.2 ์Šคํ‚ฌ ์„ ํƒ ๋ฌธ์ œ: ์ง์ ‘ ์ œ๊ณตํ•ด๋„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์„ ํƒํ•˜์ง€ ๋ชปํ•จ

ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์„ ๊ฐ•์ œ ๋กœ๋“œํ•  ๋•Œ Claude์˜ pass rate๋Š” 55.4% ์˜€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ ๋กœ๋“œ ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •ํ•˜๋„๋ก ํ•˜์ž 51.2% ๋กœ ๋–จ์–ด์กŒ๋‹ค. ๋™์ผํ•œ ์Šคํ‚ฌ์ด ๋™์ผํ•˜๊ฒŒ ์ œ๊ณต๋จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋ง์ด๋‹ค. ๋ฐฉํ•ด ์Šคํ‚ฌ์ด ์ถ”๊ฐ€๋˜์ž 43.5% ๋กœ ๋” ํ•˜๋ฝํ–ˆ๋‹ค.

์ด ํ˜„์ƒ์˜ ์›์ธ์€ ์Šคํ‚ฌ ์‚ฌ์šฉ๋ฅ  ๋ฐ์ดํ„ฐ์—์„œ ๋ถ„๋ช…ํžˆ ๋“œ๋Ÿฌ๋‚œ๋‹ค. Claude์˜ ๊ฒฝ์šฐ ํ๋ ˆ์ด์…˜ ์„ค์ •์—์„œ ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ ์ „์ฒด๋ฅผ ๋กœ๋“œํ•œ ๋น„์œจ์ด 49%์— ๋ถˆ๊ณผํ–ˆ๊ณ , ๋ฐฉํ•ด ์Šคํ‚ฌ์ด ์ถ”๊ฐ€๋˜์ž 31%๊นŒ์ง€ ๋–จ์–ด์กŒ๋‹ค.

ํฅ๋ฏธ๋กœ์šด ์ ์€ Kimi๊ฐ€ ํ๋ ˆ์ด์…˜ ์„ค์ •์—์„œ 86%๋ผ๋Š” ํ›จ์”ฌ ๋†’์€ ์Šคํ‚ฌ ๋กœ๋“œ์œจ์„ ๋ณด์˜€์Œ์—๋„, ํƒœ์Šคํฌ pass rate๋Š” 38.9%๋กœ ๊ฐ•์ œ ๋กœ๋“œ ์‹œ์˜ 38.5%์™€ ํฐ ์ฐจ์ด๊ฐ€ ์—†์—ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Š” ์Šคํ‚ฌ์„ ๋กœ๋“œํ•˜๋Š” ๊ฒƒ๊ณผ ์Šคํ‚ฌ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋ณ„๊ฐœ์˜ ์—ญ๋Ÿ‰์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.

8.3 ์Šคํ‚ฌ ๊ฒ€์ƒ‰ ๋ฌธ์ œ: ์ง์ ‘ ๊ฒ€์ƒ‰ ์‹œ ์ถ”๊ฐ€ ์„ฑ๋Šฅ ์ €ํ•˜

ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ๋” ์ด์ƒ ์ง์ ‘ ์ œ๊ณต๋˜์ง€ ์•Š๊ณ  ์—์ด์ „ํŠธ๊ฐ€ ๊ฒ€์ƒ‰ํ•ด์•ผ ํ•  ๋•Œ, ์„ฑ๋Šฅ์€ ๋‹ค์‹œ ํ•œ ๋ฒˆ ํ•˜๋ฝํ•œ๋‹ค. ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด 34k ํ’€์— ํฌํ•จ๋˜์–ด ์žˆ์–ด๋„ Claude์˜ pass rate๋Š” 40.1%, Kimi๋Š” 33.5% ๊นŒ์ง€ ๋–จ์–ด์ง„๋‹ค.

์ด๋Š” ๊ฐ€์žฅ ์ข‹์€ ๊ฒ€์ƒ‰ ์ „๋žต์—์„œ๋„ Recall@5๊ฐ€ 65.5%์— ๋ถˆ๊ณผํ•˜๋‹ค๋Š” ํ˜„์‹ค, ์ฆ‰ ์—์ด์ „ํŠธ๊ฐ€ ๋ณด๋Š” ํ›„๋ณด ์ค‘ ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ํ•ญ์ƒ ํฌํ•จ๋˜์ง€๋Š” ์•Š๋Š”๋‹ค๋Š” ์‚ฌ์‹ค์ด ๋ฐ˜์˜๋œ ๊ฒฐ๊ณผ๋‹ค.

8.4 ์Šคํ‚ฌ ์ ์‘ ๋ฌธ์ œ: ๋ฒ”์šฉ ์Šคํ‚ฌ๋กœ๋Š” ๊ธฐ์ค€์„ ์— ๊ทผ์ ‘

ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ํ’€์—์„œ ์™„์ „ํžˆ ์ œ๊ฑฐ๋˜์–ด ๋ฒ”์šฉ ์Šคํ‚ฌ๋งŒ ์žˆ์„ ๋•Œ ๊ฒฐ๊ณผ๋Š” ๊ทน์ ์œผ๋กœ ์•…ํ™”๋œ๋‹ค.

๋ชจ๋ธ๊ฒ€์ƒ‰(ํ๋ ˆ์ด์…˜ ์ œ์™ธ)์Šคํ‚ฌ ์—†์Œ baseline์ฐจ์ด
Claude Opus 4.638.4%35.4%+3.0%p
Kimi K2.519.8%21.8%-2.0%p
Qwen3.519.7%20.5%-0.8%p

Claude๋Š” baseline๋ณด๋‹ค 3.0%p ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ–ˆ์ง€๋งŒ, Kimi์™€ Qwen์€ ์˜คํžˆ๋ ค ์Šคํ‚ฌ์ด ์—†์„ ๋•Œ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ์•„์กŒ๋‹ค. ์ด๋Š” ๊ด€๋ จ ์—†๋Š” ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ์ด ์—์ด์ „ํŠธ๋ฅผ ์ ๊ทน์ ์œผ๋กœ ์˜ค๋„(mislead)ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค. ์—์ด์ „ํŠธ๊ฐ€ ๋ถˆํ•„์š”ํ•œ ์Šคํ‚ฌ์„ ๋กœ๋“œํ•˜๊ณ  ๊ทธ ์ง€์นจ์„ ๋”ฐ๋ฅด๋А๋ผ ์‹œ๊ฐ„์„ ๋‚ญ๋น„ํ•˜๊ฑฐ๋‚˜ ์ž˜๋ชป๋œ ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐ€๋Š” ๊ฒƒ์ด๋‹ค.

์ด ๊ฒฐ๊ณผ์—์„œ ๋ชจ๋ธ ๊ฐ•๋„์™€ ์Šคํ‚ฌ ๋‚ด์„ฑ(resilience) ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ํฅ๋ฏธ๋กญ๋‹ค. ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ(Claude)์€ ๊ด€๋ จ ์—†๋Š” ์Šคํ‚ฌ์„ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ๋” ๋†’์€ ๋ฐ˜๋ฉด, ์ƒ๋Œ€์ ์œผ๋กœ ์•ฝํ•œ ๋ชจ๋ธ๋“ค์€ ์ €ํ’ˆ์งˆ ์Šคํ‚ฌ์— ๋” ์ทจ์•ฝํ•˜๋‹ค.

xychart-beta
    title "๋‹จ๊ณ„์  ์กฐ๊ฑด์— ๋”ฐ๋ฅธ Pass Rate ๋ณ€ํ™” (Claude Opus 4.6)"
    x-axis ["๊ฐ•์ œ ๋กœ๋“œ", "ํ๋ ˆ์ด์…˜", "ํ๋ ˆ์ด์…˜+๋ฐฉํ•ด", "๊ฒ€์ƒ‰(ํฌํ•จ)", "๊ฒ€์ƒ‰(์ œ์™ธ)", "์Šคํ‚ฌ ์—†์Œ"]
    y-axis "Pass Rate (%)" 0 --> 70
    bar [55.4, 51.2, 43.5, 40.1, 38.4, 35.4]

9. ์Šคํ‚ฌ ์ •์ œ ์ „๋žต

์„ฑ๋Šฅ ์ €ํ•˜์˜ ์›์ธ ๋ถ„์„์—์„œ ๋‘ ๊ฐ€์ง€ ๋ณ‘๋ชฉ์ด ๋ฐœ๊ฒฌ๋˜์—ˆ๋‹ค.

  1. ๋ณ‘๋ชฉ โ‘ : ์—์ด์ „ํŠธ๊ฐ€ ์–ด๋–ค ์Šคํ‚ฌ์„ ๋กœ๋“œํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋Š”์ง€ ํŒ๋‹จํ•˜์ง€ ๋ชปํ•ด ์œ ์šฉํ•œ ์Šคํ‚ฌ์„ ํ™œ์šฉํ•˜์ง€ ์•Š์Œ
  2. ๋ณ‘๋ชฉ โ‘ก: ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ์˜ ๋‚ด์šฉ์— ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๊ฑฐ๋‚˜ ํƒœ์Šคํฌ์— ํ•„์š”ํ•œ ์ •ํ™•ํ•œ ์ •๋ณด๊ฐ€ ๋ถ€์กฑํ•จ

์ด ๋ณ‘๋ชฉ๋“ค์„ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ์Šคํ‚ฌ ์ •์ œ ์ „๋žต์„ ์—ฐ๊ตฌํ–ˆ๋‹ค.

9.1 ์ฟผ๋ฆฌ ๋ถˆ๊ฐ€์ง€์  ์ •์ œ (Query-Agnostic Refinement)

๊ณ ํ’ˆ์งˆ ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ๊ด€์ฐฐ์—์„œ ์ฐฉ์•ˆํ•˜์—ฌ, 34k ์Šคํ‚ฌ ์ปฌ๋ ‰์…˜ ์ „์ฒด๋ฅผ ํ๋ ˆ์ด์…˜ ์ˆ˜์ค€์œผ๋กœ ๊ฐœ์„ ํ•˜๋ ค๋Š” ์‹œ๋„๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ 34k ์Šคํ‚ฌ ์ „์ฒด๋ฅผ ์ •์ œํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ ์ธก๋ฉด์—์„œ ๋น„ํ˜„์‹ค์ ์ด๋ฏ€๋กœ, ๊ฐ ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ๋งŒ์„ ์˜คํ”„๋ผ์ธ์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ์‹์„ ํƒํ–ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ Anthropic์˜ skill-creator ๋ฉ”ํƒ€ ์Šคํ‚ฌ์„ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๋ฉ”ํƒ€ ์Šคํ‚ฌ์€ ํšจ๊ณผ์ ์ธ ์Šคํ‚ฌ ์ž‘์„ฑ ๋ชจ๋ฒ” ์‚ฌ๋ก€๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๊ณ  ์žˆ๋‹ค. ๊ฐ ์Šคํ‚ฌ์— ๋Œ€ํ•ด ๋ชจ๋ธ์€ ๋‹ค์Œ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

์ฒซ์งธ, ํ•ด๋‹น ์Šคํ‚ฌ์ด ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ํ•ฉ์„ฑ ํ…Œ์ŠคํŠธ ์ฟผ๋ฆฌ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ๋‘˜์งธ, ์Šคํ‚ฌ์ด ์žˆ๋Š” ๊ฒฝ์šฐ์™€ ์—†๋Š” ๊ฒฝ์šฐ ๊ฐ๊ฐ ์—์ด์ „ํŠธ๋ฅผ ์‹คํ–‰ํ•œ๋‹ค. ์…‹์งธ, ๋‘ ์—์ด์ „ํŠธ์˜ ์ถœ๋ ฅ์„ ๋น„๊ตํ•˜๊ณ  ์Šคํ‚ฌ์ด ๋„์›€์ด ๋๋Š”์ง€ ํ•ด๊ฐ€ ๋๋Š”์ง€ ์ž์ฒด ํ‰๊ฐ€ํ•œ๋‹ค. ๋„ท์งธ, ์ด ํ”ผ๋“œ๋ฐฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์Šคํ‚ฌ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฐœ์„ ํ•œ๋‹ค.

์ด ๊ณผ์ •์ด ์™„์ „ํžˆ ์˜คํ”„๋ผ์ธ์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋ฏ€๋กœ, ์ฟผ๋ฆฌ ๋ถˆ๊ฐ€์ง€์  ์ •์ œ๋Š” ์ถ”๋ก  ์‹œ์ ์—์„œ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋‚ฎ๊ณ  ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋‘ ๊ฐ€์ง€ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์ฒซ์งธ, ํŠน์ • ํƒœ์Šคํฌ์˜ ํ•„์š”์— ์Šคํ‚ฌ์„ ๋งž์ถคํ™”ํ•  ์ˆ˜ ์—†๋‹ค. ๋‘˜์งธ, ๊ฐ ์Šคํ‚ฌ์ด ๋…๋ฆฝ์ ์œผ๋กœ ์ •์ œ๋˜๋ฏ€๋กœ ์—ฌ๋Ÿฌ ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ ๊ฐ„์˜ ์ •๋ณด๋ฅผ ํ•ฉ์„ฑํ•  ์ˆ˜ ์—†๋‹ค.

9.2 ์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ (Query-Specific Refinement)

์ฟผ๋ฆฌ ๋ถˆ๊ฐ€์ง€์  ์ •์ œ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ์ ‘๊ทผ์œผ๋กœ, ์—์ด์ „ํŠธ๊ฐ€ ์ •์ œ ์ „์— ์ง์ ‘ ํƒœ์Šคํฌ๋ฅผ ํƒ์ƒ‰ํ•˜๋„๋ก ํ•œ๋‹ค. ์ •์ œ ๊ณผ์ •์€ ๋‹ค์Œ ์„ธ ๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋œ๋‹ค.

sequenceDiagram
    participant T as ํƒœ์Šคํฌ
    participant A as ์ •์ œ ์—์ด์ „ํŠธ
    participant S as ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ๋“ค
    participant R as ์ •์ œ๋œ ์Šคํ‚ฌ

    T->>A: ํƒœ์Šคํฌ ์ง€์‹œ์‚ฌํ•ญ ์ œ๊ณต
    A->>S: ๋ชจ๋“  ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ ์ฝ๊ธฐ
    A->>T: ์ดˆ๊ธฐ ์†”๋ฃจ์…˜ ์‹œ๋„
    T-->>A: ๊ฒฐ๊ณผ ๋ฐ˜ํ™˜
    A->>A: ์ž์ฒด ํ‰๊ฐ€ (์ •๋‹ต ๊ฒ€์ฆ๊ธฐ ์—†์ด)
    Note over A: ์œ ์šฉํ•œ ์Šคํ‚ฌ vs ์˜คํ•ด๋ฅผ ์œ ๋ฐœํ•œ ์Šคํ‚ฌ ๋ฐ˜์„ฑ
    A->>S: ์—ฌ๋Ÿฌ ์Šคํ‚ฌ์—์„œ ์œ ์šฉํ•œ ๋ถ€๋ถ„ ์ถ”์ถœ
    A->>R: ํ•ฉ์„ฑ๋œ ๋‹จ์ผ ์ •์ œ ์Šคํ‚ฌ ์ƒ์„ฑ
    Note over R: ํ•„์š”ํ•œ ์ •๋ณด๋งŒ ํ†ตํ•ฉํ•œ\nํƒœ์Šคํฌ ํŠนํ™” ์Šคํ‚ฌ

Phase 1: ํƒœ์Šคํฌ ์ง€์‹œ์‚ฌํ•ญ๊ณผ ๋ชจ๋“  ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ์„ ํŒŒ์•…ํ•œ๋‹ค.

Phase 2: ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ์„ ์ ๊ทน์ ์œผ๋กœ ์ฐธ์กฐํ•˜๋ฉด์„œ ํƒœ์Šคํฌ ํ•ด๊ฒฐ์„ ์‹œ๋„ํ•œ๋‹ค. ์Šคํ‚ฌ์ด ์ œ์•ˆํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์„ ์‹œ๋„ํ•˜๊ณ , ์–ด๋–ค ๋ถ€๋ถ„์ด ์ž‘๋™ํ•˜๊ณ  ์ž‘๋™ํ•˜์ง€ ์•Š๋Š”์ง€ ํŒŒ์•…ํ•œ๋‹ค.

Phase 3: ํƒ์ƒ‰ ๊ฒฝํ—˜์„ ๋ฐ”ํƒ•์œผ๋กœ ์–ด๋–ค ์Šคํ‚ฌ์ด ์œ ์šฉํ–ˆ๊ณ  ์–ด๋–ค ์Šคํ‚ฌ์ด ์˜คํ•ด๋ฅผ ์œ ๋ฐœํ–ˆ๋Š”์ง€ ๋ฐ˜์„ฑํ•˜๊ณ , ์—ฌ๋Ÿฌ ์Šคํ‚ฌ์— ๊ฑธ์ณ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ํƒœ์Šคํฌ์— ๋งž์ถคํ™”๋œ ์ •์ œ ์Šคํ‚ฌ ์„ธํŠธ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ๋Š” ์—ฌ๋Ÿฌ ์Šคํ‚ฌ์—์„œ ๊ด€๋ จ ๋ถ€๋ถ„์„ ์ถ”์ถœํ•˜๊ณ  ๊ฐ๊ฐ์ด ๋‹จ๋…์œผ๋กœ ์ œ๊ณตํ•˜์ง€ ๋ชปํ•˜๋Š” ๋‹จ์ผ ์ผ๊ด€์„ฑ ์žˆ๋Š” ์Šคํ‚ฌ๋กœ ๊ฒฐํ•ฉํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ•ต์‹ฌ์ด๋‹ค. ๋‹จ, ํƒœ์Šคํฌ๋‹น ์ถ”๋ก  ์‹œ์ ์—์„œ ์ „์ฒด ํƒ์ƒ‰ ๊ณผ์ •์ด ํ•„์š”ํ•˜๋ฏ€๋กœ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋†’๋‹ค.


10. ์ •์ œ ๊ฒฐ๊ณผ ๋ฐ ํšจ๊ณผ

10.1 ์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ํšจ๊ณผ

์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ๋Š” ์ด 9๊ฐœ ํ‰๊ฐ€ ์ผ€์ด์Šค ์ค‘ 7๊ฐœ์—์„œ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ–ˆ๋‹ค.

SkillsBench (ํ๋ ˆ์ด์…˜ ํฌํ•จ) ๊ฒฐ๊ณผ:

๋ชจ๋ธ์ •์ œ ์ „์ •์ œ ํ›„๋ณ€ํ™”
Claude Opus 4.640.1%48.2%+8.1%p
Qwen3.526.7%30.8%+4.1%p
Kimi K2.533.5%26.7%-6.8%p (์˜ˆ์™ธ)

Kimi์˜ ๊ฒฝ์šฐ ์ •์ œ ๊ณผ์ •์ด ์˜คํžˆ๋ ค ์—ญํšจ๊ณผ๋ฅผ ๋‚ณ์€ ์˜ˆ์™ธ์  ์‚ฌ๋ก€๋‹ค. ๋ชจ๋ธ์ด ์–ด๋–ค ์Šคํ‚ฌ์ด ์œ ์šฉํ•œ์ง€๋ฅผ ์ž˜๋ชป ํŒ๋‹จํ–ˆ์„ ๋•Œ, ํƒ์ƒ‰ ๋ฐ ์ž์ฒด ํ‰๊ฐ€ ๊ณผ์ •์ด ์˜คํžˆ๋ ค ์—ญ์ƒ์‚ฐ์ ์ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

์Šคํ‚ฌ ๋กœ๋“œ์œจ ๋ณ€ํ™”:

์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ๋Š” pass rate ํ–ฅ์ƒ๋ฟ ์•„๋‹ˆ๋ผ ์Šคํ‚ฌ ๋กœ๋“œ์œจ๋„ ํฌ๊ฒŒ ๋†’์˜€๋‹ค. Claude์˜ ๊ฒฝ์šฐ SkillsBench ๊ฒ€์ƒ‰(ํ๋ ˆ์ด์…˜ ํฌํ•จ) ์กฐ๊ฑด์—์„œ 44%์—์„œ 72%๋กœ ์ฆ๊ฐ€ํ–ˆ๋‹ค. ์ด๋Š” ์ •์ œ๊ฐ€ ์—์ด์ „ํŠธ๊ฐ€ ๋” ๊ธฐ๊บผ์ด ์‚ฌ์šฉํ•˜๋Š” ์Šคํ‚ฌ์„ ์ƒ์„ฑํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

10.2 ์ •์ œ ํšจ๊ณผ๊ฐ€ ์ดˆ๊ธฐ ์Šคํ‚ฌ ํ’ˆ์งˆ์— ์˜์กดํ•จ

ํฅ๋ฏธ๋กœ์šด ํŒจํ„ด์ด ๋ฐœ๊ฒฌ๋˜์—ˆ๋‹ค. ๊ฒ€์ƒ‰(ํ๋ ˆ์ด์…˜ ์ œ์™ธ) ์กฐ๊ฑด์—์„œ๋Š” ์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ์˜ ํšจ๊ณผ๊ฐ€ ๋ฏธ๋ฏธํ•˜๊ฑฐ๋‚˜ ์—†์—ˆ๋‹ค. ์ด ๋น„๋Œ€์นญ์„ฑ์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด GPT-5.4๋ฅผ LLM ํŒ์‚ฌ๋กœ ํ™œ์šฉํ•˜์—ฌ ๊ฐ ํƒœ์Šคํฌ์˜ ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ ์„ธํŠธ์˜ ๊ด€๋ จ์„ฑ๊ณผ ์ปค๋ฒ„๋ฆฌ์ง€๋ฅผ 1-5์  ์ฒ™๋„๋กœ ํ‰๊ฐ€ํ–ˆ๋‹ค.

ํ‰๊ฐ€ ์„ค์ •ํ‰๊ท  ์ปค๋ฒ„๋ฆฌ์ง€ ์ ์ˆ˜์ •์ œ ํšจ๊ณผ
SkillsBench (ํ๋ ˆ์ด์…˜ ํฌํ•จ)โ‰ฅ3.83๋Œ€
Terminal-Bench 2.0โ‰ฅ3.83๋Œ€
SkillsBench (ํ๋ ˆ์ด์…˜ ์ œ์™ธ)โ‰ค3.49์†Œ/์—†์Œ

์ด ๊ฒฐ๊ณผ๋Š” ์ค‘์š”ํ•œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ์ •์ œ๋Š” ์ƒˆ๋กœ์šด ์ง€์‹์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ธฐ์กด ์Šคํ‚ฌ ํ’ˆ์งˆ์„ ์ฆํญ์‹œํ‚ค๋Š” ์—ญํ• ์„ ํ•œ๋‹ค. ์ฒ˜์Œ์— ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ์— ๊ด€๋ จ ์ •๋ณด๊ฐ€ ์žˆ๋‹ค๋ฉด, ์ •์ œ๊ฐ€ ๊ทธ ์‹ ํ˜ธ๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์ฆํญ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ๊ด€๋ จ ์Šคํ‚ฌ ์ž์ฒด๊ฐ€ ์—†๋‹ค๋ฉด, ์ •์ œ๋„ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ํ•ฉ์„ฑํ•  ์ˆ˜ ์—†๋‹ค.

10.3 ์ฟผ๋ฆฌ ๋ถˆ๊ฐ€์ง€์  ์ •์ œ์˜ ์ œํ•œ์  ํšจ๊ณผ

์ฟผ๋ฆฌ ๋ถˆ๊ฐ€์ง€์  ์ •์ œ๋Š” ์ผ๋ถ€ ์„ค์ •์—์„œ ์ ๋‹นํ•œ ๊ฐœ์„ ์„ ์ œ๊ณตํ–ˆ๋‹ค(Claude: 40.1% โ†’ 42.0%). ๊ทธ๋Ÿฌ๋‚˜ ์ด๋“์ด ์ผ๊ด€์„ฑ ์—†๊ณ  ๋•Œ๋กœ๋Š” ๋ฌด์‹œํ•  ๋งŒํ•œ ์ˆ˜์ค€์ด์—ˆ๋‹ค. ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ์ธ์‹ ์—†์ด๋Š” ์Šคํ‚ฌ์˜ ์–ด๋А ๋ถ€๋ถ„์ด ๊ฐ€์žฅ ๊ด€๋ จ์„ฑ ์žˆ๋Š”์ง€ ํŒŒ์•…ํ•˜๊ฑฐ๋‚˜ ์—ฌ๋Ÿฌ ์Šคํ‚ฌ ๊ฐ„์˜ ์ •๋ณด๋ฅผ ํ•ฉ์„ฑํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.


11. Terminal-Bench 2.0 ์ผ๋ฐ˜ํ™” ๊ฒ€์ฆ

์Šคํ‚ฌ์„ ์œ„ํ•ด ์„ค๊ณ„๋œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ํšจ๊ณผ๊ฐ€ ์ผ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ ์œ ํšจํ•œ์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด, ์Šคํ‚ฌ์„ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  ์„ค๊ณ„๋œ Terminal-Bench 2.0์—์„œ ์ถ”๊ฐ€ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค.

Terminal-Bench 2.0์€ 89๊ฐœ์˜ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋œ ๋ฒ”์šฉ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋กœ, ์‹œ์Šคํ…œ ๊ด€๋ฆฌ, ํŒŒ์ผ ์กฐ์ž‘, ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋„์ „ ๊ณผ์ œ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ช…๋ น์ค„ ์ธํ„ฐํŽ˜์ด์Šค ํƒœ์Šคํฌ๋ฅผ ํฌํ•จํ•œ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ์—๋Š” ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ์—†์œผ๋ฏ€๋กœ ์—์ด์ „ํŠธ๋Š” 34k ์ปฌ๋ ‰์…˜์—์„œ ์ง์ ‘ ๊ฒ€์ƒ‰ํ•ด์•ผ ํ•œ๋‹ค.

๋ชจ๋ธ์Šคํ‚ฌ ์—†์Œ์Šคํ‚ฌ ๊ฒ€์ƒ‰์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ
Claude Opus 4.657.7%61.4%65.5% (+7.8%p)
Kimi K2.5์ธก์ •์ธก์ •(๊ฐœ์„  ํ™•์ธ)
Qwen3.5์ธก์ •์ธก์ •(๊ฐœ์„  ํ™•์ธ)

Claude์˜ ๊ฒฝ์šฐ ์Šคํ‚ฌ ์—†์Œ ๋Œ€๋น„ ์Šคํ‚ฌ ๊ฒ€์ƒ‰+์ •์ œ๋ฅผ ํ†ตํ•ด 7.8 ํผ์„ผํŠธ ํฌ์ธํŠธ์˜ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Š” ์Šคํ‚ฌ ๊ฒ€์ƒ‰๊ณผ ์ •์ œ ์ ‘๊ทผ๋ฒ•์ด ์Šคํ‚ฌ์„ ์œ„ํ•ด ์„ค๊ณ„๋œ ๋ฒค์น˜๋งˆํฌ์—๋งŒ ๊ตญํ•œ๋˜์ง€ ์•Š๊ณ  ๋ฒ”์šฉ ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ ์ผ๋ฐ˜ํ™”๋จ์„ ๊ฐ•๋ ฅํ•˜๊ฒŒ ์ž…์ฆํ•œ๋‹ค.


12. ๊ด€๋ จ ์—ฐ๊ตฌ ์ƒํƒœ๊ณ„

์ด ๋…ผ๋ฌธ์€ 2026๋…„ ํ˜„์žฌ ๊ธ‰์†ํžˆ ์„ฑ์žฅํ•˜๊ณ  ์žˆ๋Š” ์—์ด์ „ํ‹ฑ ์Šคํ‚ฌ ์—ฐ๊ตฌ ์ƒํƒœ๊ณ„์˜ ๋งฅ๋ฝ ์†์— ์œ„์น˜ํ•œ๋‹ค.

12.1 ์—์ด์ „ํ‹ฑ ์Šคํ‚ฌ ๊ด€๋ จ ์ฃผ์š” ์—ฐ๊ตฌ๋“ค

์—ฐ๊ตฌ์ฃผ์š” ๊ธฐ์—ฌ
SkillsBench (Li et al., 2026)์ตœ์ดˆ์˜ ์Šคํ‚ฌ ํšจ๊ณผ์„ฑ ๋ฒค์น˜๋งˆํฌ (์ด์ƒ์  ์กฐ๊ฑด)
SWE-Skills-Bench (Han et al., 2026)์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง์—์„œ์˜ ์Šคํ‚ฌ ํ‰๊ฐ€
SoK: Agentic Skills (Jiang et al., 2026)์Šคํ‚ฌ ๋ถ„๋ฅ˜์ฒด๊ณ„ ๋ฐ ์ƒ์• ์ฃผ๊ธฐ ๋ถ„์„
SkillNet (Liang et al., 2026)๋Œ€๊ทœ๋ชจ ์Šคํ‚ฌ ์ธํ”„๋ผ
EvoSkill (Alzubi et al., 2026)๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์—์„œ์˜ ์ž๋™ ์Šคํ‚ฌ ๋ฐœ๊ฒฌ
SkillRouter (Zheng et al., 2026)๋Œ€๊ทœ๋ชจ ์Šคํ‚ฌ ๋ผ์šฐํŒ…
Skill-Inject (Schmotz et al., 2026)์„œ๋“œํŒŒํ‹ฐ ์Šคํ‚ฌ ํŒŒ์ผ์˜ ๋ณด์•ˆ ์œ„ํ—˜
SkillWeaver (Zheng et al., 2025)์›น ์—์ด์ „ํŠธ์˜ ์ž๊ฐ€ ๊ฐœ์„ 
SkillRL (Xia et al., 2026)๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•œ ์Šคํ‚ฌ ์ง„ํ™”

12.2 ์ด ๋…ผ๋ฌธ์˜ ์ฐจ๋ณ„ํ™”๋œ ์œ„์น˜

๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ์Šคํ‚ฌ์˜ ์ƒ์„ฑ, ๋ฐœ๊ฒฌ, ์ง„ํ™”์— ์ดˆ์ ์„ ๋งž์ถ”๊ฑฐ๋‚˜ ์ด์ƒ์ ์ธ ์กฐ๊ฑด์—์„œ์˜ ํ‰๊ฐ€์— ๊ทธ์ณค๋‹ค๋ฉด, ์ด ๋…ผ๋ฌธ์€ ํ˜„์‹ค์  ์กฐ๊ฑด์—์„œ์˜ ์Šคํ‚ฌ ์œ ํ‹ธ๋ฆฌํ‹ฐ๋ฅผ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ณ  ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ์ขํžˆ๋Š” ์ •์ œ ์ „๋žต์„ ์—ฐ๊ตฌํ•œ๋‹ค๋Š” ์ ์—์„œ ๋…์ฐฝ์„ฑ์„ ๊ฐ–๋Š”๋‹ค.


13. ๊ฒฐ๋ก  ๋ฐ ์‹œ์‚ฌ์ 

13.1 ํ•ต์‹ฌ ๋ฐœ๊ฒฌ์‚ฌํ•ญ ์š”์•ฝ

์ด ์—ฐ๊ตฌ๋Š” LLM ์—์ด์ „ํŠธ ์Šคํ‚ฌ์— ๊ด€ํ•œ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋ฐœ๊ฒฌ์‚ฌํ•ญ์„ ๋„์ถœํ–ˆ๋‹ค.

๋ฐœ๊ฒฌ 1: ์Šคํ‚ฌ ํ˜œํƒ์˜ ์ทจ์•ฝ์„ฑ (Fragility of Skill Benefits)

์Šคํ‚ฌ์ด ์ด์ƒ์  ์กฐ๊ฑด์—์„œ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ์ƒ๋‹นํžˆ ํ–ฅ์ƒ์‹œํ‚ค์ง€๋งŒ, ์กฐ๊ฑด์ด ํ˜„์‹ค์ ์œผ๋กœ ๋ณ€ํ• ์ˆ˜๋ก ๊ทธ ํ˜œํƒ์€ ์ง€์†์ ์œผ๋กœ ๊ฐ์†Œํ•œ๋‹ค. ๊ฐ€์žฅ ํ˜„์‹ค์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ pass rate๋Š” ์Šคํ‚ฌ ์—†๋Š” ๊ธฐ์ค€์„ ์— ๊ทผ์ ‘ํ•˜๋ฉฐ, ์ผ๋ถ€ ๋ชจ๋ธ์—์„œ๋Š” ์˜คํžˆ๋ ค ์—ญํšจ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚œ๋‹ค.

๋ฐœ๊ฒฌ 2: ์—์ด์ „ํŠธ ํ•˜๋„ค์Šค์˜ ์ค‘์š”์„ฑ

๋™์ผํ•œ ์Šคํ‚ฌ ์ง‘ํ•ฉ์ด ์ œ๊ณต๋˜๋”๋ผ๋„ ์—์ด์ „ํŠธ ํ•˜๋„ค์Šค์˜ ์ฐจ์ด๊ฐ€ ์Šคํ‚ฌ ๋กœ๋“œ์œจ๊ณผ ํƒœ์Šคํฌ ์„ฑ๋Šฅ์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ์ด๋Š” ์Šคํ‚ฌ ์œ ํ‹ธ๋ฆฌํ‹ฐ๊ฐ€ ๋‹จ์ˆœํžˆ ์Šคํ‚ฌ ํ’ˆ์งˆ์˜ ํ•จ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ, ์—์ด์ „ํŠธ-ํ•˜๋„ค์Šค-์Šคํ‚ฌ์˜ 3์ž ์ƒํ˜ธ์ž‘์šฉ์ž„์„ ์˜๋ฏธํ•œ๋‹ค.

๋ฐœ๊ฒฌ 3: ์ •์ œ๋Š” ์ฆํญ์ œ์ด์ง€ ์ƒ์„ฑ๊ธฐ๊ฐ€ ์•„๋‹˜ (Refinement as Amplifier, Not Generator)

์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ๋Š” ์ดˆ๊ธฐ ๊ฒ€์ƒ‰๋œ ์Šคํ‚ฌ์— ๊ด€๋ จ ์ •๋ณด๊ฐ€ ์žˆ์„ ๋•Œ ํšจ๊ณผ์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ํšŒ๋ณต์‹œํ‚จ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ด€๋ จ ์Šคํ‚ฌ ์ž์ฒด๊ฐ€ ์—†๋‹ค๋ฉด ์ •์ œ๋Š” ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์—†๋‹ค. ์ •์ œ๋Š” ์ƒˆ๋กœ์šด ์ง€์‹์„ ์ฐฝ์ถœํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๊ธฐ์กด ์ง€์‹์„ ์ฆํญ์‹œํ‚ค๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด๋‹ค.

13.2 ์ฃผ์š” ์ˆ˜์น˜ ์š”์•ฝ

1
2
3
4
5
6
7
์Šคํ‚ฌ ๊ฐ•์ œ ๋กœ๋“œ โ†’ ์Šคํ‚ฌ ์ž์œจ ์„ ํƒ: -4.2%p (Claude)
์Šคํ‚ฌ ์ž์œจ ์„ ํƒ โ†’ ๋ฐฉํ•ด ์Šคํ‚ฌ ์ถ”๊ฐ€: -7.7%p (Claude)
๋ฐฉํ•ด ์Šคํ‚ฌ โ†’ ์ง์ ‘ ๊ฒ€์ƒ‰: -3.4%p (Claude)
์ง์ ‘ ๊ฒ€์ƒ‰ โ†’ ํ๋ ˆ์ด์…˜ ์ œ์™ธ: -1.7%p (Claude)
ํ๋ ˆ์ด์…˜ ์ œ์™ธ โ†’ ์Šคํ‚ฌ ์—†์Œ: -3.0%p (Claude๋Š” ์—ฌ์ „ํžˆ ์•ฝ๊ฐ„ ์šฐ์œ„)
์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ ํšจ๊ณผ: +8.1%p (Claude, SkillsBench ํ๋ ˆ์ด์…˜ ํฌํ•จ)
Terminal-Bench 2.0 ์ „์ฒด ๊ฐœ์„ : +7.8%p (Claude, ์Šคํ‚ฌ ์—†์Œ ๋Œ€๋น„)

14. ์‹ค๋ฌด ์ ์šฉ ๊ด€์  ๋ถ„์„

AI ์—์ด์ „ํŠธ ํ”Œ๋žซํผ(Works AI Plus, MCP ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜)๊ณผ ์—ฐ๊ฒฐํ•˜์—ฌ ์ด ๋…ผ๋ฌธ์˜ ์‹œ์‚ฌ์ ์„ ์‹ค๋ฌด์ ์œผ๋กœ ํ•ด์„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

14.1 ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ์Šคํ‚ฌ ์ €์žฅ์†Œ ์„ค๊ณ„ ์›์น™

์ด ๋…ผ๋ฌธ์˜ ๋ฐœ๊ฒฌ์€ ๊ธฐ์—… ๋‚ด ์Šคํ‚ฌ ์ €์žฅ์†Œ๋ฅผ ์„ค๊ณ„ํ•  ๋•Œ ๋‹ค์Œ์˜ ์›์น™์„ ์‹œ์‚ฌํ•œ๋‹ค.

์›์น™ 1: ์Šคํ‚ฌ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์ด ๊ฒ€์ƒ‰์˜ ํ•ต์‹ฌ

์—์ด์ „ํ‹ฑ ๊ฒ€์ƒ‰์—์„œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ(์ด๋ฆ„, ์„ค๋ช…)์˜ ํ’ˆ์งˆ์ด ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ์„ ์ขŒ์šฐํ•œ๋‹ค. ๊ธฐ์—… ์Šคํ‚ฌ ์ €์žฅ์†Œ์—์„œ ์Šคํ‚ฌ์„ ๋“ฑ๋กํ•  ๋•Œ ๋ช…ํ™•ํ•˜๊ณ  ํ’๋ถ€ํ•œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ž‘์„ฑ์„ ์˜๋ฌดํ™”ํ•ด์•ผ ํ•œ๋‹ค.

์›์น™ 2: ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ฒ€์ƒ‰์ด ๋‹จ์ˆœ ๊ฒ€์ƒ‰๋ณด๋‹ค ์œ ์˜๋ฏธํ•˜๊ฒŒ ์šฐ์ˆ˜

ํ‚ค์›Œ๋“œ ๊ฒ€์ƒ‰๊ณผ ์‹œ๋งจํ‹ฑ ๊ฒ€์ƒ‰์„ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ์ด Recall์—์„œ 18.7%p ์ด์ƒ์˜ ์ฐจ์ด๋ฅผ ๋งŒ๋“ ๋‹ค. MCP ์„œ๋ฒ„์— ์Šคํ‚ฌ ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•  ๋•Œ ๋ฐ˜๋“œ์‹œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ฒ€์ƒ‰์„ ์ฑ„ํƒํ•ด์•ผ ํ•œ๋‹ค.

์›์น™ 3: ์Šคํ‚ฌ ์ˆ˜๊ฐ€ ์ ๊ณ  ํ’ˆ์งˆ์ด ๋†’์€ ๊ฒƒ์ด ์ˆ˜๊ฐ€ ๋งŽ๊ณ  ํ’ˆ์งˆ์ด ๋‚ฎ์€ ๊ฒƒ๋ณด๋‹ค ๋‚ซ๋‹ค

๊ด€๋ จ ์—†๋Š” ์Šคํ‚ฌ์ด ์„ฑ๋Šฅ์„ ์˜คํžˆ๋ ค ์ €ํ•˜์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ๊ธฐ์—… ์Šคํ‚ฌ ์ €์žฅ์†Œ๋Š” ์–‘๋ณด๋‹ค ์งˆ์„ ์ถ”๊ตฌํ•ด์•ผ ํ•˜๋ฉฐ, ์ž˜๋ชป๋œ ์Šคํ‚ฌ์„ ๊ฑธ๋Ÿฌ๋‚ผ ํ’ˆ์งˆ ๊ด€๋ฆฌ ํ”„๋กœ์„ธ์Šค๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

์›์น™ 4: ์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ๋ฅผ ํŒŒ์ดํ”„๋ผ์ธ์— ํ†ตํ•ฉ

์—์ด์ „ํŠธ๊ฐ€ ํƒœ์Šคํฌ๋ฅผ ๋ฐ›์œผ๋ฉด ๋จผ์ € ๊ด€๋ จ ์Šคํ‚ฌ์„ ๊ฒ€์ƒ‰ํ•˜๊ณ , ๊ทธ ์Šคํ‚ฌ๋“ค๋กœ ํƒœ์Šคํฌ๋ฅผ ํƒ์ƒ‰ํ•œ ํ›„, ์ •์ œ๋œ ์Šคํ‚ฌ์„ ์ƒ์„ฑํ•˜์—ฌ ์ตœ์ข… ์‹คํ–‰์— ์‚ฌ์šฉํ•˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์„ฑํ•˜๋ฉด ์„ฑ๋Šฅ์„ ์ƒ๋‹นํžˆ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

14.2 DataLens ๋ ˆ์ด์–ด์™€์˜ ์—ฐ๊ด€์„ฑ

DataLens(S3 Iceberg, AWS Glue, Aurora PostgreSQL ์—ฐ๋™ ์ž์—ฐ์–ด ๋ฐ์ดํ„ฐ ์ฟผ๋ฆฌ)์™€ ๊ฐ™์€ ํŠน์ˆ˜ ๋ชฉ์  AI ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•  ๋•Œ, ๋ฐ์ดํ„ฐ ์ฟผ๋ฆฌ ํŒจํ„ด, SQL ๊ด€์šฉ๊ตฌ, ์Šคํ‚ค๋งˆ ์ •๋ณด๋ฅผ ๋‹ด์€ ๋„๋ฉ”์ธ ํŠนํ™” ์Šคํ‚ฌ์„ ๊ตฌ์ถ•ํ•˜๋ฉด ์œ ์šฉํ•˜๋‹ค. ์ด๋•Œ ์ด ๋…ผ๋ฌธ์˜ ๋ฐœ๊ฒฌ์€ ๋‹ค์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.

  • ๋‹จ์ˆœํžˆ ๋ฒ”์šฉ SQL ์Šคํ‚ฌ์„ ๊ฒ€์ƒ‰ํ•˜๋Š” ๊ฒƒ์€ ํฐ ํšจ๊ณผ๊ฐ€ ์—†์„ ์ˆ˜ ์žˆ๋‹ค
  • ํŠน์ • ๋ฐ์ดํ„ฐ ์Šคํ‚ค๋งˆ์™€ ์ฟผ๋ฆฌ ํŒจํ„ด์— ๋งž์ถคํ™”๋œ ํ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์ด ํ›จ์”ฌ ํšจ๊ณผ์ ์ด๋‹ค
  • ์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ๋ฅผ ํ†ตํ•ด ๊ฒ€์ƒ‰๋œ ๋ฒ”์šฉ SQL ์Šคํ‚ฌ์„ ์‹ค์ œ ์Šคํ‚ค๋งˆ์— ๋งž๊ฒŒ ์ ์‘์‹œํ‚ค๋Š” ์ „๋žต์ด ์œ ํšจํ•  ์ˆ˜ ์žˆ๋‹ค

14.3 Claude Code ์‚ฌ์šฉ์ž๋ฅผ ์œ„ํ•œ ์‹ค์šฉ์  ์‹œ์‚ฌ์ 

์ด ๋…ผ๋ฌธ์—์„œ Claude Code v2.1.19์™€ Claude Opus 4.6์„ ์กฐํ•ฉํ•œ ์‹คํ—˜์ด ์ง„ํ–‰๋˜์—ˆ๋‹ค๋Š” ์ ์€, Claude Code ํ—ค๋น„ ์œ ์ €์—๊ฒŒ ์ง์ ‘์ ์ธ ์ฐธ๊ณ  ๋ฐ์ดํ„ฐ๊ฐ€ ๋œ๋‹ค.

  • Claude๋Š” ๊ด€๋ จ ์—†๋Š” ์Šคํ‚ฌ์„ ๋ฌด์‹œํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์ƒ๋Œ€์ ์œผ๋กœ ์šฐ์ˆ˜ํ•˜๋‹ค
  • ๊ทธ๋Ÿฌ๋‚˜ ์Šคํ‚ฌ์„ ๋กœ๋“œํ• ์ง€ ๋ง์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋Šฅ๋ ฅ์€ ์—ฌ์ „ํžˆ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค (๋กœ๋“œ์œจ 49%)
  • ์Šคํ‚ฌ ์„ค๋ช…์„ ๋ช…ํ™•ํ•˜๊ฒŒ ์ž‘์„ฑํ•˜๋ฉด Claude์˜ ์Šคํ‚ฌ ์„ ํƒ ์ •ํ™•๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค
  • Claude Code์—์„œ skill-creator ๋ฉ”ํƒ€ ์Šคํ‚ฌ์„ ํ™œ์šฉํ•œ ์Šคํ‚ฌ ํ’ˆ์งˆ ๊ฐœ์„ ์ด ์‹ค์งˆ์ ์œผ๋กœ ํšจ๊ณผ์ ์ด๋‹ค

15. ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„์™€ ํ–ฅํ›„ ๊ณผ์ œ

15.1 ํ˜„์žฌ ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„

์ด ์—ฐ๊ตฌ๊ฐ€ ๋ช…์‹œ์ ์œผ๋กœ ๋˜๋Š” ์•”๋ฌต์ ์œผ๋กœ ์ธ์ •ํ•˜๋Š” ํ•œ๊ณ„๋“ค์ด ์žˆ๋‹ค.

๋ฒค์น˜๋งˆํฌ ํ•œ๊ณ„: SkillsBench๋Š” 84๊ฐœ ํƒœ์Šคํฌ๋กœ ์ œํ•œ๋˜๋ฉฐ, ์ฃผ๋กœ ์ฝ”๋”ฉ ๋ฐ ํ„ฐ๋ฏธ๋„ ๊ด€๋ จ ํƒœ์Šคํฌ์— ์ง‘์ค‘๋˜์–ด ์žˆ๋‹ค. ๋ฌธ์„œ ์ž‘์„ฑ, ์ด๋ฉ”์ผ ๊ด€๋ฆฌ, ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ๋“ฑ ๋” ๊ด‘๋ฒ”์œ„ํ•œ ์—์ด์ „ํŠธ ์‚ฌ์šฉ ์‚ฌ๋ก€์—์„œ์˜ ์Šคํ‚ฌ ์œ ํ‹ธ๋ฆฌํ‹ฐ๋Š” ์•„์ง ๊ฒ€์ฆ๋˜์ง€ ์•Š์•˜๋‹ค.

๋‹จ์ผ ๋ฐ˜๋ณต ์ •์ œ: ์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ๋Š” ๋‹จ ํ•œ ๋ฒˆ์˜ ๋ฐ˜๋ณต(single iteration)๋งŒ ์ ์šฉ๋œ๋‹ค. ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ•  ๊ฒฝ์šฐ ์„ฑ๋Šฅ์ด ๋” ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋น„์šฉ๋„ ์ฆ๊ฐ€ํ•  ๊ฒƒ์ด๋‹ค.

์ ‘์ง€ ์ง„์‹ค(Ground Truth) ๋ถ€์žฌ: ์—์ด์ „ํŠธ๋Š” ์ •์ œ ์ค‘ ์ž์ฒด ํ‰๊ฐ€์— ์˜์กดํ•˜๋ฉฐ, ์ •๋‹ต ๊ฒ€์ฆ๊ธฐ์— ์ ‘๊ทผํ•  ์ˆ˜ ์—†๋‹ค. ์ด๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์ž์‹ ์˜ ์†”๋ฃจ์…˜์„ ๊ณผ์‹ ํ•˜๊ฑฐ๋‚˜ ์ž˜๋ชป ํ‰๊ฐ€ํ•  ์œ„ํ—˜์„ ๋‚ดํฌํ•œ๋‹ค.

๋น„์šฉ ๋ถ„์„ ๋ถ€์žฌ: ์ฟผ๋ฆฌ ํŠนํ™” ์ •์ œ๊ฐ€ ์ถ”๋ก  ์‹œ์ ์—์„œ ์ „์ฒด ํƒ์ƒ‰ ๊ณผ์ •์„ ์š”๊ตฌํ•˜๋Š”๋ฐ, ์ด์˜ ์‹ค์ œ ๋น„์šฉ(ํ† ํฐ, ์‹œ๊ฐ„)์— ๋Œ€ํ•œ ์ •๋Ÿ‰์  ๋ถ„์„์ด ์ œ๊ณต๋˜์ง€ ์•Š๋Š”๋‹ค.

15.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ด ๋…ผ๋ฌธ์ด ์ œ์‹œํ•˜๋Š” ํ–ฅํ›„ ๊ณผ์ œ๋“ค์€ ์—์ด์ „ํ‹ฑ ์Šคํ‚ฌ ์—ฐ๊ตฌ์˜ ๋กœ๋“œ๋งต์„ ๊ตฌ์„ฑํ•œ๋‹ค.

๋” ๋‚˜์€ ์Šคํ‚ฌ ๊ฒ€์ƒ‰: ํ˜„์žฌ ์ตœ๊ณ  ์„ฑ๋Šฅ์ธ ์—์ด์ „ํ‹ฑ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ฒ€์ƒ‰๋„ Recall@5์—์„œ 65.5%์— ๊ทธ์นœ๋‹ค. ๋” ๋งŽ์€ ๊ฒฝ์šฐ์— ์˜ฌ๋ฐ”๋ฅธ ์Šคํ‚ฌ์„ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๊ฒ€์ƒ‰ ํŒจ๋Ÿฌ๋‹ค์ž„์ด ํ•„์š”ํ•˜๋‹ค.

๋” ํšจ๊ณผ์ ์ธ ์˜คํ”„๋ผ์ธ ์ •์ œ: ์ฟผ๋ฆฌ ๋ถˆ๊ฐ€์ง€์  ์ •์ œ์˜ ํšจ๊ณผ๊ฐ€ ์ œํ•œ์ ์ด์—ˆ๋‹ค๋Š” ์ ์€, ํƒœ์Šคํฌ ์ธ์‹ ์—†์ด๋„ ์Šคํ‚ฌ์„ ๋” ๊ทผ๋ณธ์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

๋ชจ๋ธ ์—ญ๋Ÿ‰์— ๋”ฐ๋ฅธ ์Šคํ‚ฌ ์ƒํƒœ๊ณ„ ์„ค๊ณ„: ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์€ ๊ด€๋ จ ์—†๋Š” ์Šคํ‚ฌ์„ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์•ฝํ•œ ๋ชจ๋ธ์€ ์˜คํžˆ๋ ค ํ”ผํ•ด๋ฅผ ๋ฐ›๋Š”๋‹ค. ๋ชจ๋ธ ์—ญ๋Ÿ‰์„ ๊ณ ๋ คํ•œ ์Šคํ‚ฌ ์ƒํƒœ๊ณ„ ์„ค๊ณ„ ์›์น™์ด ํ•„์š”ํ•˜๋‹ค.

๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ์Šคํ‚ฌ ํ•ฉ์„ฑ: ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ์Šคํ‚ฌ ์ •์ œ์™€ ํƒœ์Šคํฌ ํ•ด๊ฒฐ์„ ๋ณ‘๋ ฌ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๋Š” ๋น„์šฉ๊ณผ ์„ฑ๋Šฅ ๊ฐ„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.


์ฐธ๊ณ  ๋ฐ ์ถœ์ฒ˜

  • ๋…ผ๋ฌธ ์›๋ฌธ: https://arxiv.org/abs/2604.04323
  • HTML ๋ฒ„์ „: https://arxiv.org/html/2604.04323v1
  • ์ฝ”๋“œ ๋ฐ ๋ฐ์ดํ„ฐ: https://github.com/UCSB-NLP-Chang/Skill-Usage
  • ์Šคํ‚ฌ ๋ฐ์ดํ„ฐ์…‹: https://huggingface.co/datasets/Shiyu-Lab/Skill-Usage
  • SkillsBench: https://www.skillsbench.ai
  • Anthropic Agent Skills ํ‘œ์ค€: https://agentskills.io/home

์ž‘์„ฑ ์ผ์ž: 2026-04-16

์ด ๊ธฐ์‚ฌ๋Š” ์ €์ž‘๊ถŒ์ž์˜ CC BY 4.0 ๋ผ์ด์„ผ์Šค๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

ยฉ BLUEBUG. ์ผ๋ถ€ ๊ถŒ๋ฆฌ ๋ณด์œ 

Powered by Jekyll with Chirpy theme