SuperPM Blog/Prompt Guide

엄밀한 A/B 테스트 프로그램 처음부터 설계하기(Design a rigorous A/B testing program from scratch)

팀이 가끔 실험은 하지만 체계가 없어서 테스트가 겹치고, 샘플 수는 감으로 잡고, 결과는 보고 싶은 것만 선택할 때 쓰는 프롬프트입니다. 가설 템플릿, 통계적 엄밀성, 의사결정 프레임워크를 갖춘 구조화된 실험 프로그램을 세팅합니다.

Delivery

21 uses·Published 3/27/2026·Updated 4/2/2026

대부분의 A/B 테스트는 시간 낭비다. 그리고 그걸 고치는 방법

A/B 테스트를 돌리는 것 자체는 쉽습니다. 제대로 돌리는 것은 놀랄 만큼 드뭅니다. Airbnb와 Microsoft에서 VP를 지낸 Ronny Kohavi의 연구에 따르면, 대형 테크 기업의 A/B 테스트 중 약 3분의 1만이 통계적으로 유의미한 결과를 냅니다. 그런데 그중에서도 적지 않은 비율이 잘못된 실험 설계, 중간 결과 들여다보기, 불충분한 샘플 수 때문에 생긴 false positive입니다.

아마추어 실험의 세 가지 죄

죄 1: 가설이 없다. 팀은 누군가 아이디어를 냈다는 이유로 테스트를 시작하지, 어떤 행동이 어떻게 바뀔지 특정하지 않은 채 시작하는 경우가 많습니다. 가설이 없으면 성공한 실험과 우연히 맞은 실험을 구분할 수 없습니다.

죄 2: 성급하게 중간 결과를 본다. 매일 결과를 확인하고 그래프가 좋아 보이는 순간 멈추는 습관은 false positive를 사실상 보장합니다. stopping rule이 존재하는 이유가 바로 여기에 있습니다. 자신의 조급함으로부터 자신을 보호해주기 위해서입니다.

죄 3: guardrail metric을 무시한다. signup이 5% 늘었지만 30일 retention이 8% 떨어지는 테스트는 순손실입니다. 그런데 테스트 전에 guardrail metric을 정의하지 않은 팀은 표면적인 승리만 보고 그 변화를 곧바로 배포해버리기 쉽습니다.

이 A/B Testing Program 프롬프트의 작동 방식

이 프롬프트는 다섯 단계로 완전한 실험 인프라를 만듭니다. 먼저 팀이 무엇이 일어나길 기대하는지와 그 이유를 명시하게 하는 가설 프레임워크로 시작합니다. 그다음 샘플 수, power calculation, stopping rule 같은 통계적 기반을 세웁니다. 이후 impact, effort, learning value를 기준으로 테스트 아이디어를 우선순위화하는 experimentation roadmap을 만듭니다. results framework는 결과 평가와 문서화 방식을 표준화합니다. 마지막 culture 섹션은 엄밀한 실험 문화를 지속시키는 조직적 습관을 다룹니다.

Step 3의 ICE scoring은 아이디어는 많지만 트래픽이 부족한 팀일수록 특히 유용합니다. 분기당 5-8개의 테스트만 돌릴 수 있다면, 개별 테스트를 더 최적화하는 것보다 어떤 테스트를 고를지가 더 중요합니다.

언제 사용할까

감 중심 의사결정에서 데이터 기반 제품 개발로 전환하고 있을 때
팀이 실험은 돌리지만 공통 프로세스, 템플릿, 의사결정 기준이 없을 때
테스트 결과를 믿고 배포했는데 프로덕션에서 재현되지 않아 데인 적이 있을 때
제품 리더십이 rigor는 유지하면서 experimentation velocity를 높이고 싶어 할 때
경영진에게 실험 체계에 대한 투자 필요성을 설득해야 할 때

흔한 함정

동시에 너무 많은 것을 테스트하는 것. Multivariate test는 기하급수적으로 더 많은 트래픽을 필요로 합니다. 대부분의 제품에서는 변수를 하나만 바꾼 simple A/B test가 더 빠르게 더 명확한 인사이트를 줍니다.

지역 최적점만 파고드는 것. A/B 테스트는 점진적 최적화에는 탁월하지만, 대담한 새로운 방향을 평가하는 데는 형편없습니다. 제품 전략을 A/B 테스트로 찾으려 하지 마세요. 실험은 비전이 아니라 실행을 검증하는 데 쓰는 것입니다.

부정적 결과를 문서화하지 않는 것. 실패한 실험도 지식 자산입니다. 무엇이 왜 안 됐는지 기록하지 않으면 6개월 뒤 같은 패배 실험을 다시 돌리게 됩니다.

참고 자료

Trustworthy Online Controlled Experiments — Ronny Kohavi's comprehensive guide to experimentation at scale
How Booking.com Runs Thousands of Experiments — Harvard Business Review on experimentation culture
Sample Size Calculator for A/B Tests — Evan Miller's practical tool for experiment planning

Sources

Trustworthy Online Controlled Experiments — Cambridge University Press
Building a Culture of Experimentation — Harvard Business Review
Sample Size Calculator — Evan Miller

Prompt details

Ready to try the prompt?

Open the live prompt detail page for the full workflow.

View prompt details