AI 기능 신뢰 보정 audit 진행하기(Conduct an AI feature trust calibration audit)
사용자가 당신의 AI를 과신해선 안 되는 출력에 그대로 행동하거나, 반대로 충분히 맞는 출력도 무시해 버릴 때 쓰는 프롬프트입니다. 사용자 테스트, 시나리오 프로브, 행동 데이터를 통해 신뢰 보정이 어긋난 지점을 드러내고, 이를 바로잡을 개입 방안을 설계합니다.
신뢰 보정은 진짜 중요한 AI UX 지표다
AI 제품은 높은 정확도를 갖고도 실패할 수 있습니다. 사용자가 출력을 과신하거나 과소신뢰하면 그렇습니다. Anthropic의 AI transparency 관련 글과 Nielsen Norman Group의 AI UX 연구는 모두 신뢰 보정, 즉 사용자의 acceptance rate이 AI의 실제 정확도와 얼마나 맞는지가 진짜 UX 지표라고 말합니다. Raw model quality만으로는 충분하지 않습니다.
이 프롬프트의 작동 방식
이 프롬프트는 behavior signal과 8-10명의 사용자 테스트를 결합해 네 가지 시나리오(높은/낮은 confidence × 맞음/틀림)에서 보정을 점검하고, calibration pattern을 진단한 뒤 그에 맞는 개입을 제안합니다. 마지막의 "가장 miscalibrated되기 쉬운 사용자 세그먼트"는 가장 조심스럽게 개입해야 할 코호트를 드러내 줍니다.
언제 사용할까
- 사용자가 AI 출력을 검증 없이 과도하게 믿고 있을 때
- 사용자가 맞는 AI 답변도 불신하고 무시할 때
- 규제 산업에서 문서화된 trust calibration이 필요할 때
- 새 AI PM이 UX metric 체계를 세우고 있을 때
- 큰 AI 업그레이드 직후 calibration을 다시 검증해야 할 때
흔한 함정
- 정확도만 측정하는 것. Calibration 없는 정확도는 사용자가 맞는 출력조차 잘못 쓰게 만들 수 있습니다.
- 단일 시나리오만 테스트하는 것. Calibration은 confidence × correctness 매트릭스 전반을 봐야 합니다.
- 고정된 calibration. 모델이 좋아지거나 사용자가 학습하면 calibration도 drift합니다. 다시 측정하세요.
참고 자료
- Anthropic Research — Anthropic
- Usability Testing 101 — Nielsen Norman Group
- Which UX Research Methods — Nielsen Norman Group
- AI Adoption in Product Orgs — Reforge
Sources
- Anthropic Research — Anthropic
- Usability Testing 101 — Nielsen Norman Group
- Which UX Research Methods — Nielsen Norman Group
- AI Adoption in Product Orgs — Reforge
Prompt details
Ready to try the prompt?
Open the live prompt detail page for the full workflow.