SuperPM Blog/Prompt Guide

사용성 테스트 스크립트(Usability Testing Script)

warm-up 질문, task scenario, 후속 probing 질문, scoring rubric까지 포함된 구조화된 usability testing 스크립트를 만드는 프롬프트입니다. moderated remote 테스트와 대면 테스트 모두에 바로 사용할 수 있습니다.

Discovery

23 uses·Published 4/2/2026·Updated 4/2/2026

사용성 문제의 85%는 5명의 사용자만으로도 찾을 수 있다. 다만 질문을 제대로 해야 한다.

Jakob Nielsen은 2000년에 이 결과를 발표했고, 지금도 꽤 잘 맞아떨어집니다. 사용성 테스트 참가자 5명만 있어도 인터페이스 문제의 약 85%를 발견할 수 있다는 이야기입니다. 다만 큰 전제가 있습니다. 무엇을 발견하느냐는 전적으로 테스트 스크립트의 질에 달려 있다는 점입니다. 20명을 데리고도 나쁜 스크립트를 쓰면, 5명과 함께한 좋은 스크립트보다 덜 배울 수 있습니다.

제가 직접 본 사용성 세션 중에는 진행자가 "이거 쓰기 쉽죠?"라고 묻고, 참가자는 화면 앞에서 명백히 헤매면서도 "네"라고 답하는 장면이 있었습니다. 유도 질문은 시간을 낭비할 뿐 아니라, 적극적으로 잘못된 결론으로 이끕니다.

사용성 스크립트가 망가지는 지점

가장 흔한 실수는 사용자의 목표가 아니라 팀의 내비게이션 구조를 그대로 따라가는 task를 쓰는 것입니다. "Settings를 클릭하고, 그다음 Notifications, 그다음 Email Preferences로 가세요" 같은 문장은 사용자가 지시를 따를 수 있는지만 테스트합니다. 사용자가 원치 않는 이메일을 끊는 방법을 스스로 찾아낼 수 있는지는 전혀 알려주지 않습니다.

UserTesting의 2024 benchmark report에 따르면 참가자가 실제 목표를 추구하는 task-based usability test는, 단순히 지시를 따르게 하는 feature-walkthrough 테스트보다 3.4배 더 많은 문제를 발견합니다. 그런데도 대부분의 팀은 여전히 QA checklist처럼 읽히는 스크립트를 씁니다.

두 번째 실패 지점은 warm-up입니다. 많은 팀이 이를 건너뛰거나 대충 합니다. 하지만 사용성 세션의 첫 5분은 분위기를 결정합니다. 참가자가 자신이 시험받는다고 느끼면, 자연스럽게 행동하는 대신 "잘해보이려"고 합니다. Steve Krug는 "Don't Make Me Think"에서 처음 몇 분 동안 참가자가 아니라 *제품*이 테스트 대상이라는 감각을 심어줘야 한다고 설명합니다. 이 작은 전환이 전체 세션을 바꿉니다.

이 프롬프트가 돕는 방식

이 프롬프트는 warm-up 질문, task scenario, 후속 probe, scoring rubric까지 포함한 완전한 usability script를 생성합니다. 그리고 당신의 제품과 연구 목표에 맞춰 조정됩니다. task는 단계별 지시가 아니라 목표 지향적 시나리오("프로젝트에 teammate를 초대하고 싶습니다")로 작성됩니다. follow-up probe는 think-aloud protocol을 활용해 참가자가 실제로 무엇을 경험했는지 끌어냅니다.

언제 꺼내 쓸까

더 넓은 출시 전에 prototype이나 beta feature를 테스트해야 하고, 몇 분 안에 professional-grade 스크립트가 필요할 때
팀이 usability test를 처음 해보고 있어서 구조화된 출발점이 필요할 때
UserTesting, Maze 같은 remote unmoderated 테스트를 돌리며, 진행자 없이도 통하는 정밀한 task wording이 필요할 때
특정 flow에서 drop-off가 높고, 사용자가 왜 이탈하는지 이해하고 싶을 때
디자인 리뷰에 의견이 아니라 사용자 증거를 들고 들어가고 싶을 때

좋은 결과물의 모습

좋은 usability script는 시험이 아니라 대화처럼 느껴집니다. task는 참가자가 자연스럽게 행동할 수 있을 만큼 현실적인 상황으로 제시되어야 합니다. scoring rubric은 completion rate, time on task, error count 같은 정량 데이터와 confusion point, workaround, 감정 반응 같은 정성 관찰을 함께 담아야 합니다. 핵심 task는 4-6개 정도가 적당합니다. 그 이상이면 참가자가 피로해지고 데이터 품질이 떨어집니다.

참고 자료

Why You Only Need to Test with 5 Users — Nielsen Norman Group
Usability Testing Benchmarks 2024 — UserTesting
Don't Make Me Think — Steve Krug

Sources

Why You Only Need to Test with 5 Users — Nielsen Norman Group
Usability Testing Benchmarks 2024 — UserTesting
Don't Make Me Think — Steve Krug

Prompt details

Ready to try the prompt?

Open the live prompt detail page for the full workflow.

View prompt details