golden dataset으로 AI 기능 eval 실행하기(Run an AI feature eval with golden dataset)
AI & Automation
21 uses
Updated 4/17/2026
Description
AI 기능의 품질을 객관적으로 측정해야 하는데 느낌이나 출시 주간 데모에 의존하고 싶지 않을 때 쓰는 프롬프트입니다. Golden dataset, blind human scoring, 통계적 유의성 검정을 포함한 eval을 설계해, "품질"을 인상이 아니라 숫자로 보고할 수 있게 합니다.
Example Usage
당신은 {{ai_feature}}에 대한 formal eval을 진행하고 있습니다. 목표는 방어 가능한 quality number를 만드는 것입니다.
## Step 1 — Dataset
- 실제 production input 100-500개
- Use case 전반에 균형 있게 분포
- 도메인 전문가가 만든 ground-truth label (PM이 아님)
- Held-out test split (prompt iteration에는 사용하지 않음)
## Step 2 — Scoring
### Automatic metrics
- Exact match (가능한 경우)
- 텍스트 생성용 ROUGE/BLEU
- Custom task-specific metric
### LLM-judge
- 먼저 라벨된 예시 50개로 LLM judge를 calibration
- Judge와 human label의 일치도를 spot-check(85% 이상이어야 함)
### Human scoring
- Blind 방식(어떤 model/prompt인지 모르게)
- 항목당 annotator 3명, aggregate 사용
- Anchor example이 포함된 5점 rubric
## Step 3 — Statistical rigor
- Confidence interval (bootstrap)
- 95% confidence를 위한 sample size
- 2개 초과 variant를 테스트한다면 multiple comparison correction
## Step 4 — Reporting
- Overall quality score (0-100 또는 pass rate)
- 카테고리별 점수
- Confidence interval
- 해당 시 variant 비교
- 모델이 신뢰할 수 없는 category 1개
## Output
1. Eval spec (dataset, metric, judge setup)
2. Scoring rubric
3. Report template
4. 헤드라인 숫자에 가장 큰 영향을 주는 eval 결정 1개(metric 선택 등)Customize This Prompt
Customize Variables0/1
Was this helpful?
Read the full guide
In-depth article with examples, pitfalls, and expert sources