How do I use this AI & Automation prompt?

Copy the prompt template, replace the {{variable}} placeholders with your product context, and paste it into ChatGPT, Claude, or any AI assistant. The prompt will guide the AI to produce structured, actionable output for your ai & automation workflow.

What category does this prompt belong to?

This prompt belongs to the AI & Automation category, which focuses on AI-powered PM workflows, automation tools, and intelligent product operations.

런칭한 기능을 위한 계층형 AI 평가(eval) 프로그램 설계하기

Open in ChatGPT

AI & Automation

14 uses

Updated 5/8/2026

Description

바이브 체크로 LLM 기반 기능을 출시했는데 이제 실제 사용자가 테스트한 적 없는 실패를 표면화하고 있습니다. 이 프롬프트는 해당 기능을 위한 계층형 평가(eval) 프로그램을 만듭니다. 판단이 필요한 영역에는 사람 리뷰, 결정론적 체크에는 코드 기반 평가, 손으로 채점할 수 없는 열린 결과물에는 LLM 저지(judge)를 씁니다.

Example Usage

{{feature_name}}을(를) 바이브 체크로 출시한 뒤 계층형 평가(eval) 프로그램을 만드는 시니어 프로덕트 매니저(product manager)로 행동하세요. 현재 페인 포인트: {{user_pain}}. 스택: {{ai_stack}}.

## Step 1. 실패 모드 매핑
사용자 관점에서 기능이 잘못될 수 있는 5-8가지 방식을 나열하고, 각각에 한 줄짜리 프로덕션 예시를 적으세요:
- 오답 (사실관계가 틀린 출력)
- 환각(hallucination) (제공된 컨텍스트에 근거하지 않은 출력)
- 톤/안전성 이슈
- 포맷 또는 스키마 깨짐
- 레이턴시 또는 타임아웃
- 답이 가능한데 거부(refusal)
- 요청당 비용 스파이크
- 프라이버시 또는 PII 누출

## Step 2. 실패 모드별 평가 티어 선택
세 가지 티어, 각각 명확한 역할을 가집니다:
1. 사람 평가. 인라인 thumbs up/down에 주간 30개 샘플 전문가 리뷰를 더합니다. 톤, 브랜드 보이스, 엣지 케이스(edge case) 판단에 적용.
2. 코드 평가. 결정론적 체크 (regex, 스키마 밸리데이터, 레이턴시 예산, 비용 상한). 포맷 깨짐, 레이턴시, 비용, PII 패턴에 적용.
3. LLM 저지. 루브릭으로 출력을 채점하는 그레이더 프롬프트. 환각, 검색 관련성, 도움도에 적용.

각 실패 모드에 티어를 배정하고 한 줄로 근거를 적으세요.

## Step 3. 골든 셋(golden set) 구축
실제 프로덕션 트래픽을 반영하는 50-150개 입력을 모으세요:
- 60 percent 일반 케이스
- 25 percent 기존 실패 케이스
- 15 percent 적대적/엣지 케이스

프로덕션 로그(익명화)에서 가져오고, 사용자가 아직 만나지 못한 케이스를 위한 합성 예시 10-20개를 추가하세요.

## Step 4. LLM 저지 루브릭 작성
LLM이 채점하는 평가마다 프롬프트에 명시적 통과 기준을 적으세요:
- 통과의 정의 (긍정 예시)
- 실패의 정의 (부정 예시)
- 점수 스케일 (binary 또는 1-5)
- 저지에 입력할 정확한 텍스트 스니펫

대규모 점수를 신뢰하기 전에 사람 라벨 30-50개로 저지를 보정(calibration)하세요.

## Step 5. 케이던스 배선
- AI 표면을 건드리는 모든 PR에서: 골든 셋에 코드 평가 + LLM 저지 실행
- 주간: 30개의 무작위 프로덕션 샘플 사람 리뷰
- 월간: 프로덕션 로그에서 10개의 새 케이스로 골든 셋 갱신

## Step 6. 릴리즈 게이트 임계값 설정
지표마다 릴리즈를 게이트하는 숫자를 명시하세요:
- 포맷 통과율 100 percent
- 골든 셋 환각률 2 percent 미만
- 레이턴시 p95가 예산 이하
- 요청당 비용이 예산 이하

## Output
1. 실패 모드 목록과 한 줄 예시
2. 티어 배정 표 (실패 모드 -> 티어, 한 줄 근거)
3. 골든 셋 구성 (카테고리별 개수)
4. LLM 저지 루브릭 프롬프트
5. 평가 케이던스
6. 릴리즈 게이트 임계값
7. 현재 신호가 전혀 없는 단 하나의 실패 모드와, 그것을 위한 가장 싼 테스트

Customize This Prompt

Customize Variables0/3

Feature Name

User Pain

Ai Stack

Was this helpful?

Read the full guide

In-depth article with examples, pitfalls, and expert sources

런칭한 기능을 위한 계층형 AI 평가(eval) 프로그램 설계하기

Description

Example Usage

Customize This Prompt

Related AI & Automation Prompts

AI PRD 검토 및 개선(AI PRD Review & Improvement)

어떤 제품 artifact든 최적화하는 autoresearch loop 실행하기(Run an autoresearch loop to optimize any product artifact)

PM 운영을 자동화하는 AI 에이전트 워크플로우 설정하기(Set up an AI agent workflow to automate PM operations)