๐ค QA๊ฐ ์๋๋ผ PM์ด ํ์ง์ ์ฑ ์์ง๋ค๊ณ ์?
AI ์๋น์ค PM์ด๋ผ๋ฉด ๋ฐ๋์ ๊ณ ๋ฏผํด์ผ ํ๋ โํ์งโ์ ๊ธฐ์ค โ ์ฌ์ธต ๋ถ์
์ถ์ฒ: Product Makers Note 9ํธ (2026.04.08)
์๋ฌธ: https://maily.so/makersnote/posts/d5rywq04z1w
ํ๊ทธ: #AI๊ธฐํ #PM #์์ฑํAI #ํ์ง๊ด๋ฆฌ #LLMJudge
๐ ๋ค์ด๊ฐ๋ฉฐ โ ์ด ๊ธ์ด ์ ์ค์ํ๊ฐ
AI ์๋น์ค ์๋๊ฐ ๋๋ํ๋ฉด์, ์ ํ ๊ฐ๋ฐ ์กฐ์ง ๋ด์์ ๊ฐ์ฅ ์กฐ์ฉํ์ง๋ง ์ฌ๊ฐํ๊ฒ ํ๋ค๋ฆฌ๊ณ ์๋ ์ญํ ์ด ์์ต๋๋ค. ๋ฐ๋ก PM(Product Manager) ์ ๋๋ค. ๊ธฐ๋ฅ ๋ช ์ธ์๋ฅผ ์ฐ๊ณ , QA ํ๊ณผ ํ๋ ฅํ์ฌ ์์ฑ๋๋ฅผ ํ์ธํ๊ณ , ์งํ๋ฅผ ๋ณด๋ฉฐ ๋ค์ ์คํ๋ฆฐํธ๋ฅผ ๊ณํํ๋ ์ต์ํ ๋ฃจํด์ด, ์์ฑํ AI๋ผ๋ ๋ณ์์ ๋ง๋๋ ์๊ฐ ๊ทผ๋ณธ์ ์ผ๋ก ํ๋ค๋ฆฌ๊ธฐ ์์ํฉ๋๋ค.
์ด ๊ธ์ Product Makers Note ๋ด์ค๋ ํฐ 9ํธ์ ์ค๋ฆฐ ๊ธ์ ํ ๋๋ก, AI ์๋น์ค PM์ ์ญํ ๋ณํ๋ฅผ ๊น์ด ์๊ฒ ๋ถ์ํฉ๋๋ค. ์ ์(์ฌ์ค)์ ์ค์ ๊ฒฝํ๋ด์ ์ถ๋ฐ์ ์ผ๋ก ์ผ์, ์ ํ์ง์ ์ฑ ์์ด QA์์ PM์ผ๋ก ์ด๋ํ๊ณ ์๋์ง, ๊ทธ๋ฆฌ๊ณ AI ์๋์ PM์ด ๊ฐ์ถฐ์ผ ํ ์๋ก์ด ์ญ๋์ด ๋ฌด์์ธ์ง๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ์ด๋ ๋๋ค.
๐ ๋ชฉ์ฐจ
- ํต์ฌ ๋ฉ์์ง ํ ์ค ์์ฝ
- ๋ฐฐ๊ฒฝ โ ์ ํต์ PM์ ํ์ง ๊ด๋ฆฌ ๋ฐฉ์
- ์ ํ์ โ 8์๊ฐ์ง๋ฆฌ ์ฑ์ ๊ฒฝํ
- ์ QA๊ฐ AI ํ์ง์ ์ฑ ์์ง ์ ์๋๊ฐ
- PM์ ์ญํ ์ฌ์ ์ โ ๋ช ์ธ์ ์์ฑ์์์ ํ๊ฐ ์ค๊ณ์๋ก
- OpenAI๊ฐ ๋ณด๋ AI PM์ ๋ฏธ๋
- AI ํ์ง ํ๊ฐ์ ์ค์ ํ๋ก์ธ์ค
- ์ผ๋ฐ ์๋น์ค vs AI ์๋น์ค ๋น๊ต ๋ถ์
- AI PM์ ์ํ 5๋จ๊ณ ์ค์ ๊ฐ์ด๋
- ์งํ์ ํจ์ โ ์๋ชป๋ ๊ธฐ์ค์ ์ต์ ํํ ๋์ ์ํ
- ๊ฒฐ๋ก โ ์ง๊ธ์ด ๊ฒฉ์ฐจ๋ฅผ ๋ง๋ค ๊ธฐํ๋ค
- ๋ถ๋ก โ ํต์ฌ ๊ฐ๋ ์ฉ์ด ์ฌ์
ํต์ฌ ๋ฉ์์ง
โAI ์๋น์ค์์ ํ์ง์ ํ ์คํธ๊ฐ ์๋๋ผ, ์ ์์ ๋ฌธ์ ๋ค.โ
์ด ํ ๋ฌธ์ฅ์ด ์ด ๊ธ ์ ์ฒด๋ฅผ ๊ดํตํฉ๋๋ค. ๊ธฐ์กด ์ํํธ์จ์ด ๊ฐ๋ฐ์์ ํ์ง์ ๊ฒ์ฆ(Verification) ์ ๋ฌธ์ ์์ต๋๋ค. ์ด๋ฏธ ์ ํด์ง ๊ธฐ์ค์ด ์๊ณ , QA๋ ๊ทธ ๊ธฐ์ค์ ๋ง๋์ง๋ฅผ ํ์ธํ๋ ์ญํ ์ด์์ฃ . ๊ทธ๋ฐ๋ฐ ์์ฑํ AI๊ฐ ๋ง๋ค์ด๋ด๋ ๊ฒฐ๊ณผ๋ฌผ์๋ โ์ ํด์ง ์ ๋ตโ์ด ์์ต๋๋ค. ์ ๋ต ๋์ โ๋ ์ข์ ๋ตโ๊ณผ โ๋ ์ข์ ๋ตโ์ด ์์ ๋ฟ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ โ์ข์โ์ ๊ธฐ์ค์ ์ ์ํ๋ ์ฌ๋์ด ๋ฐ๋ก PM์ด ๋์ด์ผ ํ๋ค๋ ๊ฒ์ด ์ด ๊ธ์ ํต์ฌ ์ฃผ์ฅ์ ๋๋ค.
๋ฐฐ๊ฒฝ
์ ํต์ PM์ ํ์ง ๊ด๋ฆฌ ๋ฐฉ์
์ ํต์ ์ธ ์ํํธ์จ์ด ๊ฐ๋ฐ ํ๊ฒฝ์์ PM์ ํ์ง ๊ด๋ฆฌ ์ญํ ์ ๋น๊ต์ ๋จ์ํ๊ณ ๋ช ํํ์ต๋๋ค. PM์ด ์๊ตฌ์ฌํญ์ ์ ์ํ๋ฉด, ๊ฐ๋ฐํ์ด ๊ตฌํํ๊ณ , QA๊ฐ ๊ฒ์ฆํฉ๋๋ค. ์ด ์ผ๊ฐํ ๊ตฌ์กฐ๋ ๋งค์ฐ ํจ์จ์ ์ผ๋ก ์๋ํ์ต๋๋ค.
graph LR
PM["๐ PM\n์๊ตฌ์ฌํญ ์ ์"] --> DEV["๐ป ๊ฐ๋ฐํ\n๊ตฌํ"]
DEV --> QA["๐ QA\nํ
์คํธ/๊ฒ์ฆ"]
QA --> |"๋ฒ๊ทธ ๋ฐ๊ฒฌ"| DEV
QA --> |"ํต๊ณผ"| LAUNCH["๐ ์ถ์"]
style PM fill:#4A90D9,color:#fff,stroke:#2C5F8A
style DEV fill:#27AE60,color:#fff,stroke:#1A7A42
style QA fill:#E67E22,color:#fff,stroke:#B5600A
style LAUNCH fill:#8E44AD,color:#fff,stroke:#5E2D7A
์ด ๊ตฌ์กฐ์์ PM์ด ํด์ผ ํ ์ผ์ ๋ช ํํ์ต๋๋ค.
- ๋ธ๋ก๊ทธ ์๋น์ค๋ฅผ ๋ง๋ค ๋: ๊ธ์ด ์ ์ฌ๋ผ์ค๋์ง, ๊ธ์ ์ ์ ํ์ด ์ ๋๋ก ๊ฑธ๋ฆฌ๋์ง ํ์ธ
- ์จ๋ฒ ์๋น์ค๋ฅผ ๋ง๋ค ๋: ์ ๋ก๋๊ฐ ๋๋์ง, ์ด๋ฏธ์ง๊ฐ ๊นจ์ง์ง ์๋์ง, ๋ก๋ฉ ์๋๊ฐ ์ ์ ํ์ง ํ์ธ
์ด ๋ชจ๋ ๊ฒ์ ์ด์ง๋ฒ์ ํ๋จ(Binary Judgment) ์ด ๊ฐ๋ฅํฉ๋๋ค. ๋์ํ๊ฑฐ๋ ๋์ํ์ง ์๊ฑฐ๋. ๋ง๊ฑฐ๋ ํ๋ฆฌ๊ฑฐ๋. ์ด ์ธ๊ณ์์ QA๋ ๊ฐ๋ ฅํ ๋๊ตฌ์์ต๋๋ค.
์ ํ์
8์๊ฐ์ง๋ฆฌ ์ฑ์ ๊ฒฝํ โ ๋ชจ๋ ๊ฒ์ด ๋ฐ๋ ์๊ฐ
์ ์๋ ์์ฑํ AI ๊ธฐ๋ฐ ์ฌํ ๊ณํ ์๋ํ ์๋น์ค๋ฅผ ๋ด๋นํ๋ ์์ ์ ๊ฒฝํ์ ์ด์ผ๊ธฐํฉ๋๋ค. ์ด๋ ๋ ๊ฐ๋ฐ์๊ฐ ์์ฒ ๊ฐ์ AI ์์ฑ ๊ฒฐ๊ณผ๋ฌผ์ด ๋ด๊ธด ์์ ์ํธ๋ฅผ ๊ฐ์ ธ์ โ์ ์๋ฅผ ๋งค๊ฒจ๋ฌ๋ผโ๊ณ ์์ฒญํฉ๋๋ค.
์ฒ์ PM์ ๋ฐ์์ ์ ํ์ ์ด์์ต๋๋ค. โ์ ๋ด๊ฐ? QA์์ ํ๋ฉด ๋์ง ์๋?โ
ํ์ง๋ง ์ํธ๋ฅผ ์ด์ด๋ณด๋ ์๊ฐ, ์ํฉ์ ์ฌ๊ฐ์ฑ์ ๊นจ๋ซ์ต๋๋ค.
graph TD
A["๐ค AI ์์ฑ ๊ฒฐ๊ณผ๋ฌผ ๊ฒํ ์์"] --> B{"๋ฌธ์ ๊ฐ ์๋๊ฐ?"}
B --> |"์ ๋ชฉ์ด ๋จ์ํ '์ฌํ'"| C["โ ์ ๋ณด ๋ถ์ฌ ๋ฌธ์ "]
B --> |"์ถ์ฒ ์ด์ ๊ฐ ๋จ์ํ '์ ๋ช
'"| D["โ ๋ด์ฉ ๋ถ์ค ๋ฌธ์ "]
B --> |"9์ ๋จ์ฐ โ 10์ ๊ฐ๋จ โ 11์ ํ๋"| E["โ ๋ฌผ๋ฆฌ์ ๋ถ๊ฐ๋ฅ ์ผ์ "]
C --> F["๐ก ํต์ฌ ๊นจ๋ฌ์"]
D --> F
E --> F
F --> G["QA ์ฒดํฌ๋ฆฌ์คํธ๋ก๋\n์ด ๋ฌธ์ ๋ค์ ์ ๋ ์ก์ ์ ์๋ค"]
G --> H["ํ์ง = ํ
์คํธ์ ๋ฌธ์ ๊ฐ ์๋๋ผ\n'์ ์'์ ๋ฌธ์ "]
style A fill:#3498DB,color:#fff
style F fill:#E74C3C,color:#fff
style G fill:#E74C3C,color:#fff
style H fill:#2ECC71,color:#fff,stroke:#1A7A42
๋ฌธ์ ๋ ๋จ์ํ ์ค๋ฅ๊ฐ ์๋์์ต๋๋ค. AI๋ ๊ทธ๋ด๋ฏํ ๋ฌธ์ฅ์ผ๋ก ํฌ์ฅ๋ ์๋ชป๋ ์ ๋ณด๋ฅผ ์์ฑํ์ต๋๋ค. ์ด๊ฒ์ด ์์ฑํ AI์ ๋ณธ์ง์ ํน์ฑ์ด์ ์ํ์ ๋๋ค. ๊ธฐ์กด QA๋ผ๋ฉด โ๋ฒํผ์ด ์๋ํ๋๊ฐ?โ๋ผ๊ณ ๋ฌผ์๊ฒ ์ง๋ง, ์ฌ๊ธฐ์๋ โ์ด ์ฌํ ๊ณํ์ด ์ค์ ๋ก ์ ์ฉํ๊ฐ?โ๋ผ๋ ์ ํ ๋ค๋ฅธ ์ง๋ฌธ์ด ํ์ํฉ๋๋ค.
์ ์๋ ๊ฒฐ๊ตญ 8์๊ฐ ๋์ ์์ฒ ๊ฐ์ ๊ฒฐ๊ณผ๋ฌผ์ ์ ์๋ฅผ ๋งค๊ธฐ๊ฒ ๋ฉ๋๋ค. ๊ทธ ๊ณผ์ ์์ ๋ ๋ค๋ฅธ ๋ฌธ์ ๋ฅผ ๋ง์ฃผํฉ๋๋ค. ๊ธฐ์ค์ด ํ๋ค๋ฆฌ๊ธฐ ์์ํ ๊ฒ์ ๋๋ค.
- โ์ด๊ฑด 3์ ์ธ๊ฐ 4์ ์ธ๊ฐ?โ
- โ์ฐฝ์์ ์ธ๋ฐ ์ ํํ์ง ์์ผ๋ฉด ๋ช ์ ์ด์ง?โ
- โ์ด๋ ์๊ฐ๋ถํฐ ์ฑ์ ์ ํ๋ ๊ฑด์ง, ๊ธฐ์ค์ ๋ง๋ค๊ณ ์๋ ๊ฑด์ง ๋ชจ๋ฅด๊ฒ ๋ค.โ
์ด ๊ฒฝํ์ด ํต์ฌ ํต์ฐฐ๋ก ์ด์ด์ง๋๋ค: ๊ธฐ์ค ์์ด๋ ํ๊ฐ ์์ฒด๊ฐ ๋ถ๊ฐ๋ฅํ๊ณ , ๊ทธ ๊ธฐ์ค์ ๋ง๋๋ ์ฌ๋์ด PM์ด์ด์ผ ํ๋ค.
์ QA๊ฐ ํ๊ณ์ ๋ถ๋ชํ๋๊ฐ
์์ฑํ AI ์๋น์ค์ 3๊ฐ์ง ๋ณธ์ง์ ํน์ฑ
QA๊ฐ AI ์๋น์ค์ ํ์ง์ ์ฑ ์์ง๊ธฐ ์ด๋ ค์ด ์ด์ ๋ ์ธ ๊ฐ์ง ๋ณธ์ง์ ํน์ฑ์์ ๋น๋กฏ๋ฉ๋๋ค.
mindmap
root((์์ฑํ AI\n์๋น์ค์ ํน์ฑ))
๋น๊ฒฐ์ ์ฑ
๊ฐ์ ์
๋ ฅ โ ๋ค๋ฅธ ์ถ๋ ฅ
ํ๋ฅ ์ ๊ฒฐ๊ณผ
์ฌํ ๋ถ๊ฐ๋ฅํ ์ค๋ฅ
์ ๋ต ๋ถ์ฌ
์คํํธ๋ผ์ ํ์ง
๋ง๋ค/ํ๋ฆฌ๋ค ๊ตฌ๋ถ ๋ถ๊ฐ
์ฃผ๊ด์ ํ๋จ ๊ฐ์
ํ๊ฐ์ ์์กด์ฑ
์ฌ๋๋ง๋ค ๋ค๋ฅธ ํ๊ฐ
๋๋ฉ์ธ ์ง์ ํ์
๋ฌธ๋งฅ ์ดํด ์๊ตฌ
์ฒซ์งธ, ๋น๊ฒฐ์ ์ฑ(Non-determinism): ๊ฐ์ ์ง๋ฌธ์ ํด๋ ๋งค๋ฒ ๋ค๋ฅธ ๋ต์ด ๋์ต๋๋ค. QA์ ํ ์คํธ ์ผ์ด์ค๋ ๋์ผํ ์ ๋ ฅ์ ๋์ผํ ์ถ๋ ฅ์ ๊ธฐ๋ํ๋ ๊ตฌ์กฐ์ธ๋ฐ, AI๋ ์ด๋ฅผ ๋ณด์ฅํ์ง ์์ต๋๋ค.
๋์งธ, ์ ๋ต์ ๋ถ์ฌ: โ๊ฒฐ์ ๋ฒํผ์ ๋๋ฅด๋ฉด ๊ฒฐ์ ์๋ฃ ํ์ด์ง๋ก ์ด๋ํด์ผ ํ๋คโ๋ ๋ช ํํ ์ ๋ต์ด ์์ต๋๋ค. ํ์ง๋ง โ์ด ์ฌํ ๊ณํ์ ์ข์๊ฐ?โ์๋ ์ ๋ต์ด ์์ต๋๋ค. ๋์ ๋ ์ข์ ๋ต๊ณผ ๋ ์ข์ ๋ต์ด ์คํํธ๋ผ ์์ ์กด์ฌํฉ๋๋ค.
์ ์งธ, ํ๊ฐ์ ์์กด์ฑ: โ์ด ๋ต๋ณ์ ์์ฐ์ค๋ฌ์ด๊ฐ? ๋์์ด ๋๋๊ฐ? ๋๋ฌด ์ฅํฉํ์ง ์์๊ฐ? ์ ๋ขฐํ ์ ์๋๊ฐ?โ ์ด๋ฐ ์ง๋ฌธ๋ค์ ์ ํต์ ์ธ Pass/Fail ํ ์คํธ๋ก ํ๊ฐํ ์ ์์ต๋๋ค. ํ๊ฐ์์ ๋๋ฉ์ธ ์ง์๊ณผ ํ๋จ๋ ฅ์ด ํ์ํฉ๋๋ค.
QA์ ์ญํ ํ๊ณ ๋์ํ
graph LR
subgraph ์ผ๋ฐ์๋น์ค["๐ป ์ผ๋ฐ ์๋น์ค ํ์ง ๊ด๋ฆฌ"]
direction TB
R1["์๊ตฌ์ฌํญ\n(์คํ)"] --> TC["ํ
์คํธ ์ผ์ด์ค"]
TC --> PF{"Pass / Fail"}
PF -->|Pass| OK["โ
์ถ์ ๊ฐ๋ฅ"]
PF -->|Fail| FIX["๐ง ์์ "]
end
subgraph AI์๋น์ค["๐ค AI ์๋น์ค ํ์ง ๊ด๋ฆฌ"]
direction TB
R2["ํ์ง ๊ธฐ์ค\n(์คํํธ๋ผ)"] --> EVAL["ํ๊ฐ ์ค๊ณ"]
EVAL --> SCORE["์ ์ ์ฐ์ \n(1~5์ )"]
SCORE --> ANALYZE["ํจํด ๋ถ์"]
ANALYZE --> IMPROVE["ํ๋กฌํํธ/๋ก์ง\n๊ฐ์ "]
IMPROVE --> EVAL
end
์ผ๋ฐ์๋น์ค -. "AI ์๋น์ค์๋\n์ ์ฉ ๋ถ๊ฐ" .-> AI์๋น์ค
style ์ผ๋ฐ์๋น์ค fill:#EBF5FB,stroke:#2E86C1
style AI์๋น์ค fill:#EAFAF1,stroke:#1E8449
PM์ ์ญํ ์ฌ์ ์
๋ช ์ธ์ ์์ฑ์(Spec Writer) โ ํ๊ฐ ์ค๊ณ์(Evaluation Designer)
์ด ๋ณํ๋ ๋จ์ํ ์ ๋ฌด ๋ฒ์์ ํ๋๊ฐ ์๋๋๋ค. ์ฌ๊ณ ๋ฐฉ์(Mindset)์ ๊ทผ๋ณธ์ ์ธ ์ ํ์ ๋๋ค.
timeline
title PM ์ญํ ์ ์งํ
section ์ ํต์ PM ์๋
์๊ตฌ์ฌํญ ์์ง : ์ดํด๊ด๊ณ์ ์ธํฐ๋ทฐ
: ์ฌ์ฉ์ ์คํ ๋ฆฌ ์์ฑ
๋ช
์ธ์ ์์ฑ : ๊ธฐ๋ฅ ์ ์
: ์์ด์ดํ๋ ์
: ์์ฉ ๊ธฐ์ค ์ ์
๊ฒ์ฆ ๋ฐ ์ถ์ : QA ํ
์คํธ ๊ฐ๋
: ๋ฒ๊ทธ ์ฐ์ ์์ ๊ฒฐ์
: ๋ฐฐํฌ ์น์ธ
section AI ์๋น์ค PM ์๋
ํ์ง ๊ธฐ์ค ์ ์ : "์ข์ ๊ฒฐ๊ณผ"๋ ๋ฌด์์ธ๊ฐ?
: ํ๊ฐ ์ฐจ์ ์ ์
: ์ฐ์ ์์ ๊ฒฐ์
ํ๊ฐ ์์คํ
์ค๊ณ : ๋ฐ์ดํฐ์
๊ตฌ์ถ
: ๋ฃจ๋ธ๋ฆญ ์์ฑ
: ํ๊ฐ ํ์ดํ๋ผ์ธ ์ค๊ณ
๋ฐ๋ณต์ ๊ฐ์ : Human Eval ์ํ
: LLM Judge ๋์
: ๊ธฐ์ค ์ฌ์กฐ์
์ ํต์ PM์ โ๋ฌด์์ ๋ง๋ค ๊ฒ์ธ๊ฐโ ๋ฅผ ์ ์ํ์ต๋๋ค. AI ์๋์ PM์ โ์ข์ ๊ฒฐ๊ณผ๋ ๋ฌด์์ธ๊ฐโ ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๊ฒ์ด ๊ทผ๋ณธ์ ์ธ ์ฐจ์ด์ ๋๋ค.
OpenAI๊ฐ ๋ณด๋ AI PM์ ๋ฏธ๋
์ ์ดํฌ(Jake)์ ์ธ์ฌ์ดํธ โ OpenAI Head of Product Integrity
์ ์๋ OpenAI์ ์ ํ ๋ฌด๊ฒฐ์ฑ ์ฑ ์์(Head of Product Integrity)์ธ ์ ์ดํฌ์ ํ์บ์คํธ ์ธํฐ๋ทฐ๋ฅผ ์ธ์ฉํฉ๋๋ค. ์ ์ดํฌ๋ AI PM์ ๋ณํ๋ฅผ ์ด๋ ๊ฒ ์ค๋ช ํฉ๋๋ค.
โPM๋ค์ ์ ํ์ด ์ด๋ป๊ฒ ์๋ํด์ผ ํ๋์ง์ ๋ํด ๊ทธ ๋๊ตฌ๋ณด๋ค ๊ฐ์ฅ ๋ช ํํ ๋น์ ์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์, ์ ์ ๋ ํ๊ฐ(evaluation)๋ฅผ ์์ฑํ๋ ์ญํ ์ ๋งก๊ฒ ๋ฉ๋๋ค.โ
โ๊ธฐ์กด์ PM๋ค์ ๋ช ์ธ์๋ฅผ ์ฐ๋ ์ฌ๋์ด์๋ค๋ฉด, ์ด์ ๋ ํ๊ฐ๋ฅผ ์ค๊ณํ๋ ์ฌ๋์ด ๋๊ณ ์์ต๋๋ค.โ
๋ํ ์ ํ์ ํ๊ฐํ๋ ๋ฐฉ์๋ ๋ฌ๋ผ์ง๊ณ ์๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค.
| ๊ตฌ๋ถ | ๊ณผ๊ฑฐ | ํ์ฌ |
|---|---|---|
| ํต์ฌ ์งํ | ํด๋ฆญ ์, ์ ํ์จ, ์ธ์ ์๊ฐ | ๊ฒฐ๊ณผ ํ์ง, ์ฌ์ฉ์ ๋ง์กฑ๋, ๋ชฉํ ๋ฌ์ฑ๋ฅ |
| ์ธก์ ๋ฐฉ์ | ์๋ํ๋ ๋ถ์ ๋๊ตฌ | Human Eval + LLM Judge |
| ํ์ง ๊ธฐ์ค | ๊ธฐ๋ฅ์ ์๊ฒฐ์ฑ | ๊ฒฐ๊ณผ์ ์ ์ฉ์ฑ |
| ํผ๋๋ฐฑ ๋ฃจํ | ์คํ๋ฆฐํธ ๋จ์ | ์ค์๊ฐ/์ง์์ |
์ด ๋ณํ๋ OpenAI ๊ฐ์ ์ ๋ ๊ธฐ์ ์์ ์ด๋ฏธ ๋ด์ฌํ๋ ํ์ค์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ํ๋ฆ์ ์ ์ฐจ ๋ชจ๋ AI ์๋น์ค๋ฅผ ๋ง๋๋ ์กฐ์ง์ผ๋ก ํ์ฐ๋ ๊ฒ์ ๋๋ค.
AI ํ์ง ํ๊ฐ์ ์ค์ ํ๋ก์ธ์ค
ํ๊ฐ ์ฌ์ดํด์ 4๋จ๊ณ
flowchart TD
A["๐ฏ 1๋จ๊ณ: ๋ฐ์ดํฐ์
๊ตฌ์ถ\n๋ํ ์ฟผ๋ฆฌ ์ ์ \n์คํจ ์ผ์ด์ค ํฌํจ\n๋ค์ํ ๋์ด๋ ๊ตฌ์ฑ"] --> B
B["๐ 2๋จ๊ณ: ํ๊ฐ ๊ธฐ์ค ์ค์ \n์ ํ์ฑ / ์ ์ฉ์ฑ / ์์ฐ์ค๋ฌ์ / ๊ฐ๊ฒฐ์ฑ\n์ฐ์ ์์ ๊ฒฐ์ \n๋ฃจ๋ธ๋ฆญ ๋ฌธ์ํ"] --> C
C["๐ฌ 3๋จ๊ณ: ํ๊ฐ ์คํ\nHuman Eval (์ด๊ธฐ ๋จ๊ณ)\nLLM Judge (์๋ํ)\nํผํฉ ํ๊ฐ ์ฒด๊ณ ์ด์"] --> D
D["๐ 4๋จ๊ณ: ๋ถ์ ๋ฐ ๊ฐ์ \n์ ์ ํ๋ฝ ๊ตฌ๊ฐ ๋ถ์\nํ๋กฌํํธ ์์ \n๋ก์ง ๊ฐ์ \n๊ธฐ์ค ์ฌ๊ฒํ "] --> A
style A fill:#3498DB,color:#fff,stroke:#2980B9
style B fill:#27AE60,color:#fff,stroke:#1E8449
style C fill:#E67E22,color:#fff,stroke:#CA6F1E
style D fill:#8E44AD,color:#fff,stroke:#6C3483
๊ฐ ๋จ๊ณ๋ฅผ ๋ ์์ธํ ์ดํด๋ด ๋๋ค.
1๋จ๊ณ: ๋ฐ์ดํฐ์ ๊ตฌ์ถ
๋ฐ์ดํฐ์ ์ โ์ฐ๋ฆฌ ์๋น์ค๊ฐ ์ํด์ผ ํ๋ ์ง๋ฌธ๋ค์ ๋ชจ์๋์ ๋ฆฌ์คํธโ์ ๋๋ค. ์ข์ ๋ฐ์ดํฐ์ ์ ์ธ ๊ฐ์ง ์ ํ์ ์ฟผ๋ฆฌ๋ฅผ ํฌํจํด์ผ ํฉ๋๋ค.
pie title ๋ฐ์ดํฐ์
๊ตฌ์ฑ ๋น์จ (์์)
"์ผ๋ฐ์ ์ธ ์ฌ์ฉ ์ผ์ด์ค" : 50
"์ฃ์ง ์ผ์ด์ค / ๊ณ ๋์ด๋" : 30
"์คํจ ์ ์น๋ช
์ ์ธ ์ผ์ด์ค" : 20
์์ (์์ฑํ AI ์ฌํ ๊ณํ ์ฑ):
- ์ผ๋ฐ ์ผ์ด์ค: โ์์ธ 2๋ฐ 3์ผ ์ฌํ ๊ณํ ์ง์คโ
- ๊ณ ๋์ด๋ ์ผ์ด์ค: โํผ์ ์ฌํํ๋ 60๋ ๋ฌด๋ฆ์ด ์ ์ข์ ๋ถ์ ์ํ ๊ฒฝ์ฃผ ์ผ์ โ
- ์น๋ช ์ ์ผ์ด์ค: โ์์ด ๋๋ฐ ๊ฐ์กฑ ์ฌํ ๊ณํ์ ์ฑ์ธ ์ ์ฉ ์ฅ์ ํฌํจ๋๋ฉด ์ ๋จโ
2๋จ๊ณ: ํ๊ฐ ๊ธฐ์ค ์ค์ (๋ฃจ๋ธ๋ฆญ)
์ข์ ํ๊ฐ ๊ธฐ์ค์ ๋ช ํํ๊ณ , ์ธก์ ๊ฐ๋ฅํ๋ฉฐ, ํ ์ ์ฒด๊ฐ ๋์ํ ์ ์์ด์ผ ํฉ๋๋ค.
| ํ๊ฐ ์ฐจ์ | ์ ์ | 5์ ๊ธฐ์ค | 1์ ๊ธฐ์ค |
|---|---|---|---|
| ์ ํ์ฑ | ์ฌ์ค์ ๊ธฐ๋ฐํ ์ ๋ณด ์ ๊ณต | ๋ชจ๋ ์ฅ์/์๊ฐ ์ ๋ณด๊ฐ ์ ํ | ๋ฌผ๋ฆฌ์ ๋ถ๊ฐ๋ฅํ ์ผ์ , ํ์ ์ฅ์ ํฌํจ |
| ๊ตฌ์ฒด์ฑ | ์คํ ๊ฐ๋ฅํ ์์ค์ ๋ํ ์ผ | ๊ตํตํธ, ์์ ์๊ฐ, ์์ฝ ์ ๋ณด ํฌํจ | โ์ฌํโ, โ์ ๋ช ํ ๊ณณโ ์์ค์ ์ถ์์ ์ ๋ณด |
| ํ์ค์ฑ | ์ฒด๋ ฅ, ์๊ฐ, ์์ฐ ๊ณ ๋ ค | ์ด๋ ์๊ฐ๊ณผ ํด์์ด ์ ์ ํ ๋ฐฐ๋ถ๋จ | ์์ธ ์ฃผ์ ๋ช ์๋ฅผ ํ๋ฃจ์ 10๊ณณ ๋ฐฉ๋ฌธ |
| ์์ฐ์ค๋ฌ์ | ๋ฌธ์ฅ์ ๊ฐ๋ ์ฑ๊ณผ ํ๋ฆ | ์์ฐ์ค๋ฝ๊ณ ์น๊ทผํ ์ด์กฐ | ์ด์ํ ๋ฒ์ญํฌ, ์ง๋์น๊ฒ ๋ฑ๋ฑํ ๋ฌธ์ฒด |
| ๊ฐ๊ฒฐ์ฑ | ํ์ํ ์ ๋ณด๋ง ๋ด์ | ํต์ฌ ์ ๋ณด ์ค์ฌ์ผ๋ก ๊ตฌ์ฑ | ๋ถํ์ํ ๋ฐ๋ณต, ์ง๋์น๊ฒ ์ฅํฉํ ์ค๋ช |
3๋จ๊ณ: ํ๊ฐ ์คํ
graph LR
subgraph Human["๐ค Human Eval"]
H1["์์ ๊ณ ํ์ง ์ํ\n(20~100๊ฐ)"] --> H2["PM/๋๋ฉ์ธ ์ ๋ฌธ๊ฐ๊ฐ\n์ง์ ์ฑ์ "]
H2 --> H3["ํ๊ฐ ๊ธฐ์ค ์ ๊ตํ\n๊ธฐ์ค์ ์ค์ "]
end
subgraph LLM["๐ค LLM Judge"]
L1["๋๋ ์ํ\n(์๋ฐฑ~์์ฒ ๊ฐ)"] --> L2["Claude/GPT-4๋ฅผ\nํ๊ฐ์๋ก ํ์ฉ"]
L2 --> L3["์ฌ๋์ด ์ ์ํ\n๊ธฐ์ค + ๋ฃจ๋ธ๋ฆญ ์ฃผ์
"]
L3 --> L4["์๋ํ๋\n์ ์ ์ฐ์ถ"]
end
Human --> |"๊ธฐ์ค ๊ฒ์ฆ ํ\n์๋ํ๋ก ์ ํ"| LLM
style Human fill:#D6EAF8,stroke:#2E86C1
style LLM fill:#D5F5E3,stroke:#1E8449
LLM Judge ํ์ฉ ์ ํต์ฌ ์์น: ๊ธฐ์ค ์์ด ์ ์๋ง ๋งค๊ธฐ๋ผ๊ณ ํ๋ฉด LLM๋ โ๊ทธ๋ด๋ฏํ๊ฒโ ํ๊ฐํด๋ฒ๋ฆฝ๋๋ค. ๋ฐ๋์ ๋ช ํํ ๋ฃจ๋ธ๋ฆญ๊ณผ ํ๊ฐ ๊ธฐ์ค์ ํ๋กฌํํธ์ ํฌํจํด์ผ ํฉ๋๋ค.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
[LLM Judge ํ๋กฌํํธ ์์]
๋ค์ ์ฌํ ๊ณํ์ ์๋ ๊ธฐ์ค์ ๋ฐ๋ผ 1~5์ ์ผ๋ก ํ๊ฐํด์ฃผ์ธ์.
[ํ๊ฐ ๊ธฐ์ค]
- ๊ตฌ์ฒด์ฑ (1~5): ์ผ์ ์ ์ค์ ๋ก ๋ฐ๋ผ ํ ์ ์์ ์ ๋๋ก ๊ตฌ์ฒด์ ์ธ๊ฐ?
- 5์ : ๊ตํตํธ, ์์ ์๊ฐ, ์
์ฅ๋ฃ, ์์ฝ ํ์ ์ฌ๋ถ ํฌํจ
- 3์ : ์ฅ์๋ช
์ ์์ผ๋ ์ธ๋ถ ์ ๋ณด ๋ถ์กฑ
- 1์ : "์ ๋ช
ํ ๊ณณ", "๋ง์ง" ์์ค์ ์ถ์์ ํํ
- ํ์ค์ฑ (1~5): ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ์ผ์ ์ธ๊ฐ?
- 5์ : ์ด๋ ์๊ฐ๊ณผ ์ฒด๋ฅ ์๊ฐ์ด ํ์ค์ ์ผ๋ก ๋ฐฐ๋ถ๋จ
- 3์ : ์ผ๋ถ ๋นก๋นกํ์ง๋ง ์คํ ๊ฐ๋ฅ
- 1์ : ์ด๋ ์๊ฐ์ ๋ฌด์ํ ๋ถ๊ฐ๋ฅํ ์ผ์
[ํ๊ฐํ ์ฌํ ๊ณํ]
{์ฌํ ๊ณํ ๋ด์ฉ}
[์ถ๋ ฅ ํ์]
๊ตฌ์ฒด์ฑ: X์ / ์ด์ : ...
ํ์ค์ฑ: X์ / ์ด์ : ...
์ข
ํฉ ์ ์: X์
4๋จ๊ณ: ๋ถ์ ๋ฐ ๊ฐ์
์ ์๊ฐ ๋ฎ์ ๊ตฌ๊ฐ์ ๋ถ์ํ๋ฉด ๊ฐ์ ๋ฐฉํฅ์ด ๋ณด์ ๋๋ค. ๊ฐ์ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ์ธ ๊ฐ์ง์ ๋๋ค.
- ํ๋กฌํํธ ์์ง๋์ด๋ง: AI์๊ฒ ์ฃผ๋ ์ง์๋ฌธ์ ์์
- ๋ก์ง ๊ฐ์ : ํ์ฒ๋ฆฌ ํํฐ, ๊ฒ์ฆ ๋ก์ง ์ถ๊ฐ
- ๊ธฐ์ค ์ฌ์ ์: ์ฐ๋ฆฌ๊ฐ ํ๊ฐํ๋ ๊ธฐ์ค ์์ฒด๊ฐ ์๋ชป๋ ๊ฒฝ์ฐ
์ผ๋ฐ ์๋น์ค vs AI ์๋น์ค ๋น๊ต
ํจ๋ฌ๋ค์์ ์ ํ
graph TB
subgraph OLD["๐ป ์ผ๋ฐ ์๋น์ค ํจ๋ฌ๋ค์"]
direction LR
O1["์ ๋ต ์กด์ฌ\n(์คํ = ์ ๋ต)"] --> O2["์ด์ง๋ฒ์ ํ๋จ\n(Pass / Fail)"]
O2 --> O3["QA๊ฐ ํ์ง ์ฑ
์"]
O3 --> O4["์ฒดํฌ๋ฆฌ์คํธ ๊ธฐ๋ฐ\n๊ฒ์ฆ ๊ฐ๋ฅ"]
end
subgraph NEW["๐ค AI ์๋น์ค ํจ๋ฌ๋ค์"]
direction LR
N1["์ ๋ต ์์\n(์คํํธ๋ผ ์กด์ฌ)"] --> N2["์คํํธ๋ผ์ ํ๋จ\n(์ ์/๋ฑ๊ธ)"]
N2 --> N3["PM์ด ํ์ง ์ฑ
์"]
N3 --> N4["ํ๊ฐ ์ค๊ณ ๊ธฐ๋ฐ\n๋ฐ๋ณต์ ๊ฐ์ "]
end
OLD -. "ํจ๋ฌ๋ค์ ์ ํ" .-> NEW
style OLD fill:#EBF5FB,stroke:#2E86C1
style NEW fill:#EAFAF1,stroke:#1E8449
์์ธ ๋น๊ตํ
| ๊ตฌ๋ถ | ๐ป ์ผ๋ฐ ์๋น์ค | ๐ค AI ์๋น์ค |
|---|---|---|
| ํ์ง ๊ธฐ์ค | ๋ช ํํจ (๊ธฐํ์ = ์ ๋ต) | ์ ๋งคํจ (์คํํธ๋ผ๋ง ์์, ์ ๋ต ๋์ โ๋ชจ๋ฒ ๋ต์โ ์กด์ฌ) |
| ํ์ง ๊ด๋ฆฌ์ ์ด์ | ํ์ง ๋ณด์ฆ (QA) | ํ๊ฐ ์ค๊ณ (Evaluation Design) |
| ํ์ง ์ฑ ์์ | QA ํ | PM |
| ํต์ฌ ์งํ | ๊ธฐ๋ฅ์ ์๊ฒฐ์ฑ | ํ๊ฐ ๊ธฐ์ค ๋ถํฉ ์ ๋ |
| ๊ฒ์ฆ ๋ฐฉ์ | ๊ฒฐ๊ณผ๊ฐ ์ผ์น ์ฌ๋ถ ํ๋จ (โO/X ํด์ฆโ ๋ฐฉ์) | ๊ฒฐ๊ณผ๊ฐ ์ต์ ํ ์ฌ๋ถ ํ๋จ (โ๋ ผ์ ์ํโ ๋ฐฉ์) |
| ์๋ํ ๋ฐฉ๋ฒ | ํ ์คํธ ์๋ํ (Selenium, Jest ๋ฑ) | LLM Judge, Human-in-the-Loop |
| ๊ฐ์ ๋ฐฉํฅ | ๋ฒ๊ทธ ์์ | ํ๋กฌํํธ ๊ฐ์ , ๊ธฐ์ค ์ฌ์ ์ |
| ์๋ฃ ๊ธฐ์ค | ํ ์คํธ ์ผ์ด์ค 100% ํต๊ณผ | ์ง์์ ๊ฐ์ ์ฌ์ดํด |
์ฑ์ ๋ฐฉ์์ ๋น์
graph LR
subgraph OX["๐ O/X ํด์ฆ (์ผ๋ฐ ์๋น์ค)"]
Q1["๋ฒํผ ํด๋ฆญ ์\n๋ค์ ํ๋ฉด์ผ๋ก ์ด๋ํ๋๊ฐ?"]
A1["โ
YES = Pass\nโ NO = Fail"]
end
subgraph ESSAY["โ๏ธ ๋
ผ์ ์ํ (AI ์๋น์ค)"]
Q2["์ด ์ฌํ ๊ณํ์\n์ข์ ํ์ง์ธ๊ฐ?"]
A2["5์ : ๋งค์ฐ ์ฐ์\n4์ : ์ฐ์\n3์ : ๋ณดํต\n2์ : ๋ฏธํก\n1์ : ๋งค์ฐ ๋ฏธํก"]
end
OX -. "AI ์๋น์ค๋\n์ด ๋ฐฉ์์ผ๋ก" .-> ESSAY
style OX fill:#EBF5FB,stroke:#2E86C1
style ESSAY fill:#EAFAF1,stroke:#1E8449
5๋จ๊ณ ์ค์ ๊ฐ์ด๋
โํ์ง๊ด๋ฆฌ ํด๋ณธ ์ ์๋โ PM์ ์ํ ๋ก๋๋งต
์ ์๋ AI ํ์ง ํ๊ฐ์ ์ฒ์ ๋์ ํ๋ PM๋ค์ ์ํด 5๋จ๊ณ ์ค์ฒ ๊ฐ์ด๋๋ฅผ ์ ์ํฉ๋๋ค. ์ด๊ฒ์ ๊ธฐ์กด QA ๊ฒฝํ๊ณผ ๋ฌด๊ดํ๊ฒ, โ๊ธฐ์ค์ ๋ง๋ค์ด๋ณธ ์ ์๋๋โ ์ ๊ด์ ์์ ์ ๊ทผํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
flowchart LR
S1["Step 1\n์ง์ ์ ์\n๋งค๊ฒจ๋ณด๊ธฐ"] --> S2["Step 2\n๊ธฐ์ค\n์ ์ํ๊ธฐ"]
S2 --> S3["Step 3\n๋ฐ์ดํฐ์
\n๊ตฌ์ถํ๊ธฐ"]
S3 --> S4["Step 4\nLLM Judge\nํ์ฉํ๊ธฐ"]
S4 --> S5["Step 5\n์งํ\n์์ฌํ๊ธฐ"]
S1 -.- D1["๐ฏ ๋ชฉํ:\n๋ด ํ๋จ ๊ธฐ์ค\n์๊ฐํ๊ธฐ"]
S2 -.- D2["๐ฏ ๋ชฉํ:\n๊ฐ์ ์ธ์ด๋ก\nํํํ๊ธฐ"]
S3 -.- D3["๐ฏ ๋ชฉํ:\n๋ฐ๋ณต ์ธก์ ๊ฐ๋ฅํ\n๊ธฐ์ค์ ๋ง๋ค๊ธฐ"]
S4 -.- D4["๐ฏ ๋ชฉํ:\nํ๊ฐ ์๋ํ๋ก\n์๋ ํ๋ณด"]
S5 -.- D5["๐ฏ ๋ชฉํ:\n์งํ ํธํฅ\n์ ๊ฑฐํ๊ธฐ"]
style S1 fill:#3498DB,color:#fff
style S2 fill:#27AE60,color:#fff
style S3 fill:#E67E22,color:#fff
style S4 fill:#9B59B6,color:#fff
style S5 fill:#E74C3C,color:#fff
Step 1: ์ง์ ์ ์ ๋งค๊ฒจ๋ณด๊ธฐ
๋ชฉ์ : ํ๊ฐ ๊ธฐ์ค์ ๋ง๋ค๊ธฐ ์ ์, ๋จผ์ ๋ณธ๋ฅ์ ์ผ๋ก ํ๋จํ๋ฉฐ ๊ธฐ์ค์ด ์์ ๋์ ํผ๋์ ์ฒด๊ฐํฉ๋๋ค.
๋ฐฉ๋ฒ:
- ์ค์ ์๋น์ค ๊ฒฐ๊ณผ๋ฌผ 20~30๊ฐ๋ฅผ ๋ฌด์์๋ก ๋ฝ์ต๋๋ค
- ์๋ฌด ๊ธฐ์ค ์์ด ์ง๊ฐ์ผ๋ก 1~5์ ์ ๋งค๊น๋๋ค
- ๊ธฐ์ค์ด ํ๋ค๋ฆฌ๋ ์ง์ ์ ๊ธฐ๋กํฉ๋๋ค
ํต์ฌ ์ธ์ฌ์ดํธ: โ์ด๊ฑด 3์ ์ธ๊ฐ 4์ ์ธ๊ฐ?โ๋ผ๊ณ ๋งํ๋ ์๊ฐ, โ์, ๊ธฐ์ค์ด ์์ผ๋ฉด ํ๊ฐ ์์ฒด๊ฐ ์ ๋๋๊ตฌ๋โ ๋ฅผ ๊นจ๋ซ๊ฒ ๋ฉ๋๋ค. ์ด ๋ต๋ตํจ์ด Step 2์ ์ถ๋ฐ์ ์ ๋๋ค.
๐ก ์ด ๋จ๊ณ์ ๋ชฉํ: ์ ์๋ฅผ ์ ํํ ๋งค๊ธฐ๋ ๊ฒ์ด ์๋๋ผ, ๋ด๊ฐ ์ด๋ค ๊ธฐ์ค์ผ๋ก ํ๋จํ๊ณ ์๋์ง ์ค์ค๋ก ์ธ์ํ๋ ๊ฒ.
Step 2: ๊ธฐ์ค ์ ์ํ๊ธฐ
๋ชฉ์ : ๋จธ๋ฆฟ์์ ๋ชจํธํ ํ๋จ์ ํ์ด ๋ฉ๋ํ ์ ์๋ ๋ช ์์ ๊ธฐ์ค์ผ๋ก ๋ณํํฉ๋๋ค.
๋ฐฉ๋ฒ:
- Step 1์์ ๋๋ โ๋ง์ฐํ ๋๋โ์ ๋ฌธ์ฅ์ผ๋ก ํํํฉ๋๋ค
- โ์ข์ [๊ฒฐ๊ณผ๋ฌผ]์ [ํน์ฑ]์ด์ด์ผ ํ๋คโ ํ์์ผ๋ก ์์ฑํฉ๋๋ค
- ๊ฐ ํน์ฑ์ ๋ํ ๊ตฌ์ฒด์ ์ธ ์์๋ฅผ ํฌํจํฉ๋๋ค
์์ (์ฌํ ๊ณํ ์ฑ):
1
2
3
4
5
6
7
8
9
10
11
12
โ
์ข์ ์ฌํ ๊ณํ์ ๊ธฐ์ค:
1. ๊ตฌ์ฒด์ ์ด์ด์ผ ํ๋ค
โ ์ผ์ ์ ์ค์ ๋ก ๋ฐ๋ผ ํ ์ ์์ ์ ๋๋ฉด ๊ตฌ์ฒด์ ์ด๋ค
โ "์ ๋ช
ํ ์นดํ"๋ ๊ตฌ์ฒด์ ์ด์ง ์๋ค. "์ผ์ฒญ๋ OO์นดํ (์์ฝ ๋ถํ์, 09:00 ์คํ)"๋ ๊ตฌ์ฒด์ ์ด๋ค
2. ํ์ค์ ์ด์ด์ผ ํ๋ค
โ ์ด๋ ์๊ฐ, ์์ฐ, ์ฒด๋ ฅ์ ๊ณ ๋ คํด ์คํ ๊ฐ๋ฅํด์ผ ํ๋ค
โ ์์ธ ์ฃผ์ ๋ช
์ 10๊ณณ์ ํ๋ฃจ์ ๋ฐฉ๋ฌธํ๋ ๊ณํ์ ํ์ค์ ์ด์ง ์๋ค
3. ๊ฐ๊ฒฐํด์ผ ํ๋ค
โ ๋ถํ์ํ๊ฒ ๊ธธ๊ณ ์ฅํฉํ๋ฉด ๊ฐ์ ํ๋ค
โ ๊ฐ์ ์ ๋ณด๋ฅผ ๋ฐ๋ณตํ๋ ๊ฒฝ์ฐ ๊ฐ์ ํ๋ค
๐ก ์ด ๋จ๊ณ์ ๋ชฉํ: ๊ฐ์ผ๋ก ํ๋จํ๋ ๊ฒ์, ํ ์ ์ฒด๊ฐ ๋ฉ๋ํ ์ ์๋ ์ค๋ช ๊ฐ๋ฅํ ๊ธฐ์ค์ผ๋ก ๋ฐ๊พธ๋ ๊ฒ.
Step 3: ๋ฐ์ดํฐ์ ๊ตฌ์ถํ๊ธฐ
๋ชฉ์ : ๊ธฐ์ค์ ๋ฐ๋ณต ์ ์ฉํ๊ณ ๊ฐ์ ์ ์ถ์ ํ ์ ์๋ ์์ ์ ์ธ ๊ธฐ์ค์ ์ ๋ง๋ญ๋๋ค.
๋ฐ์ดํฐ์ ์ ์ญํ :
- ๊ธฐ์ค = โ๋ฌด์์ด ์ข์๊ฐโ
- ๋ฐ์ดํฐ์ = โ๊ทธ ๊ธฐ์ค์ ์ ์ฉํด๋ณผ ๋ฌธ์ ๋คโ
์ด ๋์ด ํจ๊ป ์์ด์ผ ํ์ง์ ์ง์์ ์ผ๋ก ๊ฐ์ ํ ์ ์์ต๋๋ค.
๋ฐ์ดํฐ์ ๊ตฌ์ฑ ์์:
| ๊ตฌ์ฑ ์์ | ๋ด์ฉ | ๋น์จ |
|---|---|---|
| ์ผ๋ฐ ์ผ์ด์ค | ์ค์ ์ ์ ๊ฐ ๋ง์ด ํ ์ฟผ๋ฆฌ | 50% |
| ์ฃ์ง ์ผ์ด์ค | ๊น๋ค๋กญ๊ฑฐ๋ ํน์ํ ์ํฉ | 30% |
| ์น๋ช ์ ์ผ์ด์ค | ์คํจํ๋ฉด ํฐ ๋ฌธ์ ๊ฐ ๋๋ ์ํฉ | 20% |
| ๋ชจ๋ฒ ๋ต์ | ๊ฐ ์ผ์ด์ค์ ๋ํ ์ด์์ ๊ฒฐ๊ณผ๋ฌผ | (์ฐธ๊ณ ์ฉ) |
๐ก ์ด ๋จ๊ณ์ ๋ชฉํ: ๋ฐ์ดํฐ์ ์์ด๋ ๋งค๋ฒ ๋ค๋ฅธ ์ง๋ฌธ, ๋ค๋ฅธ ์ํฉ์ ๋ณด๊ฒ ๋์ด ๊ฐ์ ์ฌ๋ถ๋ฅผ ํ๋จํ๊ธฐ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ์ผ๊ด๋ ๊ธฐ์ค์ ์ ๋ง๋๋ ๊ฒ.
Step 4: LLM์ ํ๊ฐ์๋ก ํ์ฉํ๊ธฐ (LLM Judge)
๋ชฉ์ : ์ฌ๋์ด ์์์ ์ผ๋ก ํ๊ฐํ๋ ํ๊ณ๋ฅผ ์๋ํ๋ก ๊ทน๋ณตํฉ๋๋ค.
์ฃผ์์ฌํญ: ๊ธฐ์ค ์์ด LLM์๊ฒ ์ ์๋ง ๋งค๊ธฐ๋ผ๊ณ ํ๋ฉด, LLM๋ โ๊ทธ๋ด๋ฏํ๊ฒโ ํ๊ฐํฉ๋๋ค. ๋ฐ๋์ Step 2์์ ์ ์ํ ๊ธฐ์ค์ ํจ๊ป ์ฃผ์ ํด์ผ ํฉ๋๋ค.
LLM Judge ์ค๊ณ ์์น:
graph TD
A["LLM Judge ์ค๊ณ"] --> B["๋ช
ํํ ๋ฃจ๋ธ๋ฆญ ์ฃผ์
\n(Step 2์ ๊ธฐ์ค ํ์ฉ)"]
A --> C["์ ์ + ์ด์ ์์ฒญ\n(์ ์๋ง ์์ฒญํ๋ฉด ์ ๋ขฐ๋ ๋ฎ์)"]
A --> D["์ผ๊ด์ฑ ๊ฒ์ฆ\n(๊ฐ์ ์ํ์ ์ฌ๋ฌ ๋ฒ ์ฑ์ ํ์ฌ ํธ์ฐจ ํ์ธ)"]
A --> E["Human Eval๊ณผ ๋น๊ต\n(์ด๊ธฐ์๋ ์ฌ๋ ํ๊ฐ์ ์ผ์น๋ ์ธก์ )"]
B --> F["๊ณ ํ์ง ์๋ ํ๊ฐ ๊ฐ๋ฅ"]
C --> F
D --> F
E --> F
style A fill:#9B59B6,color:#fff
style F fill:#27AE60,color:#fff
LLM Judge ๋์ ์ ์ด์ :
- ๋๋ ํ๊ฐ ๊ฐ๋ฅ (์์ญ ๊ฐ โ ์์ฒ ๊ฐ)
- ๋ฐ๋ณต ์์ ๋ํญ ๊ฐ์
- ๋น ๋ฅธ ๊ฐ์ ์ฌ์ดํด (ํ๋กฌํํธ ์์ โ ์ฆ์ ์ฌํ๊ฐ ๊ฐ๋ฅ)
๐ก ์ด ๋จ๊ณ์ ๋ชฉํ: ๋ณธ๊ฒฉ์ ์ธ ํ๊ฐ ์๋ํ์ ์์. ์ฌ๋์ ํ๋จ๋ ฅ์ ๊ธฐ์ค ์ ์์ ๊ฒ์ฆ์ ์ง์คํ๊ณ , ๋ฐ๋ณต ํ๊ฐ๋ AI์๊ฒ ์์.
Step 5: ์งํ๋ฅผ ๋ฏฟ์ง ๋ง๊ณ ์์ฌํ๊ธฐ
๋ชฉ์ : ์งํ๊ฐ ์ฌ๋ผ๊ฐ๋ ์ค์ ์ฌ์ฉ์ ๊ฒฝํ์ด ๋๋น ์ง๋ ์ญ์ค์ ์ํฉ์ ๋ฐฉ์งํฉ๋๋ค.
์ด ๋จ๊ณ๋ ๊ฐ์ฅ ๊ณ ๊ธ์ค๋ฝ๊ณ ์ค์ํ ๋จ๊ณ์ ๋๋ค. ์ ์๊ฐ ๊ณ์ ์ฌ๋ผ๊ฐ๋ฉด ์์ฐ์ค๋ฝ๊ฒ โ์ ๋๊ณ ์๋คโ๋ ์ฐฉ๊ฐ์ด ์๊น๋๋ค. ํ์ง๋ง ์๋ชป๋ ๊ธฐ์ค์ ์ด์ฌํ ์ต์ ํํ๋ ๊ฒ์ด ์ค์ ๋ก๋ ์ ํ์ ๋ง์นฉ๋๋ค.
ํํ ์งํ์ ํจ์ :
graph TD
A["ํ๊ฐ ์ ์ ์์น ๐"] --> B{"์ค์ ์ ์ ๊ฒฝํ์?"}
B -->|"์ข์์ก๋ค"| C["โ
์ฌ๋ฐ๋ฅธ ์ต์ ํ"]
B -->|"์คํ๋ ค ๋๋น ์ก๋ค"| D["โ ์๋ชป๋ ๊ธฐ์ค ์ต์ ํ"]
D --> E["์์ธ ๋ถ์"]
E --> F["์ ํ์ฑ ๊ณผ์ ๊ฐ์กฐ\nโ ๋ฑ๋ฑํ ๋ฌธ์ฒด"]
E --> G["์ฐฝ์์ฑ ๊ณผ์ ๊ฐ์กฐ\nโ ์ฅํฉํ ๊ฒฐ๊ณผ๋ฌผ"]
E --> H["๊ฐ๊ฒฐ์ฑ ๊ณผ์ ๊ฐ์กฐ\nโ ์ ๋ณด ๋ถ์กฑ"]
F --> I["๊ธฐ์ค ์ฌ์ ์ ํ์"]
G --> I
H --> I
style A fill:#27AE60,color:#fff
style D fill:#E74C3C,color:#fff
style I fill:#3498DB,color:#fff
ํต์ฌ ์ง๋ฌธ: โ์ด ์งํ๊ฐ ์ง์ง ์ ์ ๊ฒฝํ์ ์ค๋ช ํ๊ณ ์๋๊ฐ?โ
๋ง์ฝ ์๋๋ผ๋ฉด, ๋ชจ๋ธ์ ๊ฐ์ ํ๊ธฐ ์ ์ ๊ธฐ์ค๋ถํฐ ๋ค์ ๋ด์ผ ํฉ๋๋ค.
๐ก ์ด ๋จ๊ณ์ ๋ชฉํ: ์งํ๊ฐ ๋ชฉ์ ์ด ์๋๋ผ ์๋จ์์ ๊ธฐ์ตํ๊ณ , ํญ์ ์ค์ ์ฌ์ฉ์ ๊ฐ์น์์ ์ฐ๊ฒฐ์ ํ์ธํ๋ ๊ฒ.
์งํ์ ํจ์
Goodhartโs Law์ AI ํ์ง ๊ด๋ฆฌ
๊ฒฝ์ ํ์ ์ฐฐ์ค ๊ตฟํํธ(Charles Goodhart)๋ ์ด๋ฐ ๋ฒ์น์ ์ ์ํ์ต๋๋ค: โ์ด๋ค ์ธก์ ์งํ๊ฐ ๋ชฉํ๊ฐ ๋๋ฉด, ๊ทธ๊ฒ์ ๋ ์ด์ ์ข์ ์ธก์ ์งํ๊ฐ ์๋๋ค.โ ์ด๊ฒ์ด AI ํ์ง ๊ด๋ฆฌ์์๋ ์ ํํ ์ฌํ๋ฉ๋๋ค.
graph LR
subgraph TRAP["โ ๏ธ ์งํ์ ํจ์ (Goodhart's Law)"]
T1["์ข์ ์งํ ๋ฐ๊ฒฌ\n(์: ๊ตฌ์ฒด์ฑ ์ ์)"] --> T2["์งํ ์ต์ ํ\n(๊ตฌ์ฒด์ฑ ๊ทน๋ํ)"]
T2 --> T3["์ ์๋ ์ฌ๋ผ๊ฐ ๐"]
T3 --> T4["ํ์ง๋ง...\n๋๋ฌด ์์ธํด์ ์ฝ๊ธฐ ํ๋ค์ด์ง"]
T4 --> T5["์ ์ ์ดํ ์ฆ๊ฐ ๐"]
T5 --> T6["์งํ๋ ์ข์ง๋ง\n์ ํ์ ๋งํจ"]
end
style TRAP fill:#FDEDEC,stroke:#E74C3C
์ค์ ์ฌ๋ก ํจํด:
์ ํ์ฑ์ ์๋ฅผ ์ต์ ํํ๋ฉด โ ๊ฒฐ๊ณผ๊ฐ ๋ฑ๋ฑํ๊ณ ๊ฑด์กฐํด์ง ์ ์์์ฐฝ์์ฑ์ ์๋ฅผ ์ต์ ํํ๋ฉด โ ์ธ๋ฐ์์ด ์ฅํฉํด์ง ์ ์์๊ฐ๊ฒฐ์ฑ์ ์๋ฅผ ์ต์ ํํ๋ฉด โ ํ์ํ ์ ๋ณด๊ฐ ๋น ์ง ์ ์์์์ฐ์ค๋ฌ์์ ์๋ฅผ ์ต์ ํํ๋ฉด โ ์ ํ์ฑ์ด ํฌ์๋ ์ ์์
ํ์ง ๊ด๋ฆฌ์ ์ฑ์ ๋จ๊ณ๋ โ๋จ์ผ ์งํ ์ต์ ํ โ ๋ค์ฐจ์ ๊ท ํ โ ์ฌ์ฉ์ ๊ฒฝํ ์ฐ๋โ์ผ๋ก ์งํํฉ๋๋ค.
๊ฒฐ๋ก
์ง๊ธ์ด ๊ฒฉ์ฐจ๋ฅผ ๋ง๋ค ๊ธฐํ๋ค
์ ์๋ ์ด ๋ณํ๋ฅผ ๋จ์ํ ๋ถ๋ด ์ฆ๊ฐ๊ฐ ์๋๋ผ, ์๋ก์ด ๊ธฐํ๋ก ๋ฐ๋ผ๋ด ๋๋ค.
quadrantChart
title AI PM์ ์ญ๋ ๋งคํธ๋ฆญ์ค
x-axis "๊ธฐ๋ฅ ๊ฐ๋ฐ ์ญ๋" --> "๋ฎ์"
y-axis "ํ๊ฐ ์ค๊ณ ์ญ๋" --> "๋์"
quadrant-1 "๋ฏธ๋ AI PM ๋ฆฌ๋"
quadrant-2 "์ ํต์ PM"
quadrant-3 "์ฃผ๋์ด PM"
quadrant-4 "๊ฐ๋ฐ ์ค์ฌ PM"
"๊ธฐ๋ฅ ๋ช
์ธ ์ ๋ฌธ๊ฐ": [0.8, 0.2]
"ํ์ง ์ ์ ์ ๋ฌธ๊ฐ": [0.2, 0.8]
"Full-stack PM": [0.7, 0.8]
"์ด๋ณด AI PM": [0.3, 0.4]
์ ์์ ํต์ฌ ์ฃผ์ฅ์ ์ ๋ฆฌํ๋ฉด ์ด๋ ์ต๋๋ค:
๊ธฐ๋ฅ์ ์ ๋ง๋๋ PM์ ๋ง๋ค. ํ์ง๋ง ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ ์ ์๋ PM์ ์์ง ๋ง์ง ์๋ค.
ํ์ง์ ๋ณธ๋ค๋ ๊ฑด ๊ฒฐ๊ตญ ์ ํ์ ๋ฐฉํฅ์ ๊ฐ์ฅ ๊ฐ๊น์ด์์ ๋ค๋ฃจ๋ ์ผ์ด๋ค. ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ์ข์์ง ๊ณ ๋ฏผํ๋ค ๋ณด๋ฉด, ์์ฐ์ค๋ฝ๊ฒ โ์ด ์๋น์ค๋ ๋ฌด์์ ์ํด์ผ ํ๋๊ฐโ๋ผ๋ ์ง๋ฌธ๊น์ง ๋ฟ๊ฒ ๋๋ค.
๊ตญ๋ด ์์ฅ์์๋ ์์ง ์ด ์ญํ ์ด PM์ ํต์ฌ ์์ญ์ผ๋ก ์ฌ๋ผ์ค์ง ์์ ๊ณณ์ด ๋ง๋ค. ์ง๊ธ์ด ๊ฒฉ์ฐจ๋ฅผ ๋ง๋ค ์ ์๋ ํ์ด๋ฐ์ด๋ค.
AI PM์ ์๋ก์ด ์ ์ฒด์ฑ
graph TD
OLD["๊ณผ๊ฑฐ์ PM\n'๋ฌด์์ ๋ง๋ค ๊ฒ์ธ๊ฐ'\n๋ฅผ ์ ์ํ๋ ์ฌ๋"] --> NEW
NEW["๋ฏธ๋์ AI PM\n'์ข์ ๊ฒฐ๊ณผ๋ ๋ฌด์์ธ๊ฐ'\n๋ฅผ ์ ์ํ๊ณ \n๊ทธ๊ฒ์ ์ธก์ ํ๋ ๊ตฌ์กฐ๋ฅผ\n์ค๊ณํ๋ ์ฌ๋"]
NEW --> A["ํ์ง ๊ธฐ์ค ์ค๊ณ์\n(Quality Criteria Designer)"]
NEW --> B["ํ๊ฐ ์์คํ
์ค๊ณ์\n(Evaluation System Designer)"]
NEW --> C["๊ฐ์ ์ฌ์ดํด ์ด์์\n(Improvement Cycle Operator)"]
NEW --> D["์ ํ ๋ฐฉํฅ ์ํธ์\n(Product Direction Guardian)"]
style OLD fill:#BDC3C7,color:#2C3E50
style NEW fill:#2C3E50,color:#fff
style A fill:#3498DB,color:#fff
style B fill:#27AE60,color:#fff
style C fill:#E67E22,color:#fff
style D fill:#9B59B6,color:#fff
๋ถ๋ก
ํต์ฌ ๊ฐ๋ ์ฉ์ด ์ฌ์
| ์ฉ์ด | ์ค๋ช |
|---|---|
| Human Eval | ์ฌ๋์ด ์ง์ AI ๊ฒฐ๊ณผ๋ฌผ์ ํ๊ฐํ๋ ๋ฐฉ์. ์ด๊ธฐ ๊ธฐ์ค ์ค์ ๊ณผ LLM Judge ๊ฒ์ฆ์ ํ์ฉ |
| LLM Judge | ๋ค๋ฅธ LLM์ ํ๊ฐ์๋ก ํ์ฉํ์ฌ AI ๊ฒฐ๊ณผ๋ฌผ์ ์๋์ผ๋ก ์ฑ์ ํ๋ ๋ฐฉ๋ฒ |
| ๋ฃจ๋ธ๋ฆญ (Rubric) | ํ๊ฐ ๊ธฐ์ค์ ์ฒด๊ณํํ ๋ฌธ์. ๊ฐ ์ฐจ์๋ณ ์ ์ ๊ธฐ์ค์ ๋ช ์ |
| ๋ฐ์ดํฐ์ (Eval Dataset) | ํ์ง ์ธก์ ์ ์ํด ์ ๋ณ๋ ๋ํ ์ฟผ๋ฆฌ ๋ชจ์. ํ์ง ๋ณํ๋ฅผ ์ถ์ ํ๋ ๊ธฐ์ค์ |
| ํ๊ฐ ํ์ดํ๋ผ์ธ | ๋ฐ์ดํฐ์ โ ๋ชจ๋ธ ์คํ โ LLM Judge โ ์ ์ ์ง๊ณ โ ๋ถ์๊น์ง์ ์๋ํ๋ ํ๋ฆ |
| ํ๋กฌํํธ ์์ง๋์ด๋ง | AI ๋ชจ๋ธ์ ์ฃผ๋ ์ง์๋ฌธ์ ์ต์ ํํ์ฌ ์ถ๋ ฅ ํ์ง์ ๊ฐ์ ํ๋ ๊ธฐ๋ฒ |
| Goodhartโs Law | ์ธก์ ์งํ๊ฐ ๋ชฉํ๊ฐ ๋๋ฉด ๋ ์ด์ ์ข์ ์ธก์ ์งํ๊ฐ ์๋๋ผ๋ ๋ฒ์น |
| ๋น๊ฒฐ์ ์ฑ (Non-determinism) | ๊ฐ์ ์ ๋ ฅ์๋ ๋ค๋ฅธ ์ถ๋ ฅ์ด ๋์ค๋ AI์ ๋ณธ์ง์ ํน์ฑ |
| ํ์ง ์คํํธ๋ผ | AI ๊ฒฐ๊ณผ๋ฌผ์ ํ์ง์ด Pass/Fail์ด ์๋ ์ฐ์์ ์ธ ์คํํธ๋ผ ์์ ์กด์ฌํจ์ ์๋ฏธ |
| Head of Product Integrity | AI ์ ํ์ ํ์ง๊ณผ ๋ฌด๊ฒฐ์ฑ์ ์ด๊ดํ๋ ์ญํ . OpenAI ๋ฑ ์ ๋ AI ๊ธฐ์ ์ ๋ฑ์ฅํ๋ ์ ๊ท ์ง์ฑ |
๐ ํจ๊ป ์ฝ์ผ๋ฉด ์ข์ ์๋ฃ
- OpenAI Head of Product Integrity Jake ํ์บ์คํธ ์ธํฐ๋ทฐ (์๋ฌธ ๊ธ์์ ์ธ์ฉ)
- [Product Makers Note 4ํธ] AI ์๋์ ๋ฌ๋ผ์ ธ์ผ ํ ๊ธฐํ์, ๋์์ด๋์ ๋ณด๋ฒ
- [Product Makers Note 8ํธ] ๋ฐ์ดํฐ๋ ๋ง์๋ฐ, ์ ํ์ ์ ๋ถ์กฑํ ๊น
๋ฌธ์ ์์ฑ์ผ: 2026๋
4์ 12์ผ
์๋ฌธ ์ถ์ฒ: Product Makers Note 9ํธ โ https://maily.so/makersnote/posts/d5rywq04z1w