prompt regression testing suite 실행하기(Run a prompt regression testing suite)
프롬프트를 조금 손봐서 버그 하나는 고쳤는데, 다른 세 가지 동작이 조용히 회귀했을 때 쓰는 프롬프트입니다. Gold test set, 자동 diff, pass/fail threshold를 포함한 regression testing suite를 설계해, 모든 prompt 변경을 ship 전에 검증하게 합니다.
Regression test 없는 prompt engineering은 두더지 잡기 게임이다
프롬프트는 버그 하나를 고치기 위해 손보면 다른 세 군데가 조용히 망가지는 일이 흔합니다. Anthropic의 prompt engineering 글과 GitHub의 developer research는 같은 규율을 강조합니다. Frozen gold test set, old vs. new prompt 자동 diff, 그리고 load-bearing task 기준 pass/fail rule입니다. Regression test가 없으면 모든 prompt 개선은 도박이 됩니다.
이 프롬프트의 작동 방식
이 프롬프트는 production distribution과 과거 regression을 반영한 gold test set을 만들고, 네 가지 match type으로 diff harness를 구성하고, load-bearing task regression에는 hard-fail rule을 적용합니다. 마지막의 "ship 후 추가할 첫 3개 테스트 케이스"는 테스트 세트를 살아 있게 유지해 줍니다.
언제 사용할까
- 특정 버그를 고치기 위해 prompt를 수정하고 있을 때
- 이전 prompt 변경이 조용한 regression을 만들었던 적이 있을 때
- AI eval 팀이 커지며 기본 discipline이 필요할 때
- Compliance review가 prompt 변경 절차를 요구할 때
- 새 AI PM이 품질 ritual을 세우고 있을 때
흔한 함정
- 시간에 멈춰 버린 gold test set. Production distribution은 변합니다. 새 패턴이 보일 때마다 테스트 세트도 키워야 합니다.
- Exact match만으로 채점하는 것. LLM 출력은 조금씩 달라질 수 있습니다. 퍼지 동등성을 위해 semantic match가 필요합니다.
- Hard-fail rule이 없는 것. Load-bearing task의 regression은 경고가 아니라 deploy 차단 사유여야 합니다.
참고 자료
- Anthropic Research — Anthropic
- GitHub Developer Research — GitHub
- AI Adoption in Product Orgs — Reforge
- Stack Overflow Blog — Stack Overflow
Sources
- Anthropic Research — Anthropic
- GitHub Developer Research — GitHub
- AI Adoption in Product Orgs — Reforge
- Stack Overflow Blog — Stack Overflow
Prompt details
Ready to try the prompt?
Open the live prompt detail page for the full workflow.