SuperPM Blog/Prompt Guide

출시 전 AI 기능 평가 루브릭 설계하기(Design an AI feature evaluation rubric before shipping)

AI 기능을 출시하려는데 유일한 평가가 "팀 보기에 좋아 보임"일 때. 이 프롬프트는 적절한 평가 루브릭 — 태스크 셋, 점수화 기준, 골든 답안, 회귀 가드레일 — 을 설계해 자신감으로 출시하고 나중에 드리프트를 잡도록 합니다.

AI & Automation

24 uses·Published 4/17/2026·Updated 4/17/2026

평가 없는 AI 기능은 프로덕션의 테스트되지 않은 코드다

구조화된 평가 없이 AI 기능을 출시하는 것은 테스트 없이 코드를 출시하는 것과 동등합니다 — 그리고 출력이 그럴듯하게 올바르게 보이기 때문에 실패 모드를 잡기가 더 어렵습니다. Anthropic의 리서치 글과 PostHog의 AI 분석 글 모두 평가 패턴을 문서화합니다: happy path, edge case, adversarial 입력에 걸친 태스크 셋, 골든 답안 비교로 3~5차원에 걸쳐 점수화. 평가는 사용자가 보기 전에 회귀의 60~80%를 잡아냅니다.

Design an AI feature evaluation rubric before shipping 프롬프트의 작동 방식

프롬프트는 4가지 입력 카테고리에 걸친 태스크 셋을 만들고, 골든 답안이 있는 다차원 루브릭을 정의하고, 자동 diff가 있는 회귀 가드레일을 설정합니다. "용인할 실패 모드" 출력은 정직한 트레이드오프 — 완벽한 AI는 출시 불가능하고, 용인되는 실패를 명명하는 것이 트레이드오프를 의도적으로 만듭니다.

언제 사용할까

AI 기능이 출시 임박이고 평가 계획이 얇을 때.
모델 업그레이드가 고려되고 회귀 리스크가 알려지지 않았을 때.
이전 출시가 팀이 놓친 환각을 만들었을 때.
새 AI PM이 평가 규율을 정립할 때.
이사회가 AI 품질이 어떻게 측정되는지 묻고 있을 때.

흔한 함정

Happy-path만 있는 테스트 셋. 평가가 팀이 자랑스러워하는 케이스만 다루면, 프로덕션이 놓친 모든 것을 표면화할 겁니다.
단일 차원 점수. Correctness 단독은 safety, faithfulness, completeness를 놓칩니다. 모두에 대해 점수화하세요.
회귀 자동화 없음. 수동 평가는 퇴화합니다. 모든 모델/프롬프트 변경에 diff를 자동화하세요.

출시 전 AI 기능 평가 루브릭 설계하기(Design an AI feature evaluation rubric before shipping)

평가 없는 AI 기능은 프로덕션의 테스트되지 않은 코드다

Design an AI feature evaluation rubric before shipping 프롬프트의 작동 방식

언제 사용할까

흔한 함정

참고 자료

Sources

Prompt details

Ready to try the prompt?

More AI & Automation Guides

AI PRD 검토 및 개선(AI PRD Review & Improvement)

어떤 제품 artifact든 최적화하는 autoresearch loop 실행하기(Run an autoresearch loop to optimize any product artifact)

PM 운영을 자동화하는 AI 에이전트 워크플로우 설정하기(Set up an AI agent workflow to automate PM operations)