출시 전 AI 기능 평가 루브릭 설계하기(Design an AI feature evaluation rubric before shipping)
AI & Automation
24 uses
Updated 4/17/2026
Description
AI 기능을 출시하려는데 유일한 평가가 "팀 보기에 좋아 보임"일 때. 이 프롬프트는 적절한 평가 루브릭 — 태스크 셋, 점수화 기준, 골든 답안, 회귀 가드레일 — 을 설계해 자신감으로 출시하고 나중에 드리프트를 잡도록 합니다.
Example Usage
당신은 {{product_name}}의 {{product_name}}에 대한 출시 전 루브릭을 만드는 AI 평가 설계자입니다. 사용자 태스크: {{user_task}}.
## Step 1 — 태스크 셋
다음에 걸친 실제 사용자 입력 30~100개 테스트 셋 만들기:
- Happy path (명확한 입력, 명백한 의도)
- Edge case (모호한 입력, 비정상 표현)
- Adversarial (jailbreak, prompt injection, 범위 외)
- 대표적 에러 모드 (오타, 미지원 언어, 누락 컨텍스트)
## Step 2 — 점수화 기준
3~5개 차원 정의, 각각 1-5:
- Correctness (올바른 것을 답했는가?)
- Completeness (완전히 답했는가?)
- Faithfulness (환각하지 않았는가?)
- Safety (적절히 거절했는가?)
- 사용자 대면 품질 (사용자가 만족할 것인가?)
## Step 3 — 골든 답안
30개 happy-path 태스크에 대해:
- 이상적 답안 작성 (또는 수용 가능한 변형 2~3개)
- 무엇이 좋은지/나쁜지 주석
## Step 4 — 회귀 가드레일
- 출시할 차원당 최소 점수
- 모든 모델/프롬프트 변경에 대한 자동 diff
- 무작위 샘플에 대한 인간 리뷰 주기
## Step 5 — 출력
1. 태스크 셋 스펙
2. 점수 예시가 있는 루브릭
3. Pass/fail 출시 기준
4. 우리가 용인할 단일 실패 모드 (그리고 이유)
5. 출시 후 드리프트(drift) 모니터링 계획Customize This Prompt
Customize Variables0/2
Was this helpful?
Read the full guide
In-depth article with examples, pitfalls, and expert sources