Back to Prompts

런칭한 기능을 위한 계층형 AI 평가(eval) 프로그램 설계하기

AI & Automation
2 uses
Updated 5/8/2026

Description

바이브 체크로 LLM 기반 기능을 출시했는데 이제 실제 사용자가 테스트한 적 없는 실패를 표면화하고 있습니다. 이 프롬프트는 해당 기능을 위한 계층형 평가(eval) 프로그램을 만듭니다. 판단이 필요한 영역에는 사람 리뷰, 결정론적 체크에는 코드 기반 평가, 손으로 채점할 수 없는 열린 결과물에는 LLM 저지(judge)를 씁니다.

Example Usage

{{feature_name}}을(를) 바이브 체크로 출시한 뒤 계층형 평가(eval) 프로그램을 만드는 시니어 프로덕트 매니저(product manager)로 행동하세요. 현재 페인 포인트: {{user_pain}}. 스택: {{ai_stack}}.

## Step 1. 실패 모드 매핑
사용자 관점에서 기능이 잘못될 수 있는 5-8가지 방식을 나열하고, 각각에 한 줄짜리 프로덕션 예시를 적으세요:
- 오답 (사실관계가 틀린 출력)
- 환각(hallucination) (제공된 컨텍스트에 근거하지 않은 출력)
- 톤/안전성 이슈
- 포맷 또는 스키마 깨짐
- 레이턴시 또는 타임아웃
- 답이 가능한데 거부(refusal)
- 요청당 비용 스파이크
- 프라이버시 또는 PII 누출

## Step 2. 실패 모드별 평가 티어 선택
세 가지 티어, 각각 명확한 역할을 가집니다:
1. 사람 평가. 인라인 thumbs up/down에 주간 30개 샘플 전문가 리뷰를 더합니다. 톤, 브랜드 보이스, 엣지 케이스(edge case) 판단에 적용.
2. 코드 평가. 결정론적 체크 (regex, 스키마 밸리데이터, 레이턴시 예산, 비용 상한). 포맷 깨짐, 레이턴시, 비용, PII 패턴에 적용.
3. LLM 저지. 루브릭으로 출력을 채점하는 그레이더 프롬프트. 환각, 검색 관련성, 도움도에 적용.

각 실패 모드에 티어를 배정하고 한 줄로 근거를 적으세요.

## Step 3. 골든 셋(golden set) 구축
실제 프로덕션 트래픽을 반영하는 50-150개 입력을 모으세요:
- 60 percent 일반 케이스
- 25 percent 기존 실패 케이스
- 15 percent 적대적/엣지 케이스

프로덕션 로그(익명화)에서 가져오고, 사용자가 아직 만나지 못한 케이스를 위한 합성 예시 10-20개를 추가하세요.

## Step 4. LLM 저지 루브릭 작성
LLM이 채점하는 평가마다 프롬프트에 명시적 통과 기준을 적으세요:
- 통과의 정의 (긍정 예시)
- 실패의 정의 (부정 예시)
- 점수 스케일 (binary 또는 1-5)
- 저지에 입력할 정확한 텍스트 스니펫

대규모 점수를 신뢰하기 전에 사람 라벨 30-50개로 저지를 보정(calibration)하세요.

## Step 5. 케이던스 배선
- AI 표면을 건드리는 모든 PR에서: 골든 셋에 코드 평가 + LLM 저지 실행
- 주간: 30개의 무작위 프로덕션 샘플 사람 리뷰
- 월간: 프로덕션 로그에서 10개의 새 케이스로 골든 셋 갱신

## Step 6. 릴리즈 게이트 임계값 설정
지표마다 릴리즈를 게이트하는 숫자를 명시하세요:
- 포맷 통과율 100 percent
- 골든 셋 환각률 2 percent 미만
- 레이턴시 p95가 예산 이하
- 요청당 비용이 예산 이하

## Output
1. 실패 모드 목록과 한 줄 예시
2. 티어 배정 표 (실패 모드 -> 티어, 한 줄 근거)
3. 골든 셋 구성 (카테고리별 개수)
4. LLM 저지 루브릭 프롬프트
5. 평가 케이던스
6. 릴리즈 게이트 임계값
7. 현재 신호가 전혀 없는 단 하나의 실패 모드와, 그것을 위한 가장 싼 테스트

Customize This Prompt

Customize Variables0/3
Was this helpful?
Read the full guide
In-depth article with examples, pitfalls, and expert sources
Ready to use this prompt?

Related AI & Automation Prompts