제품 최적화를 위한 자율 실험 루프 설계하기(Design an autonomous experiment loop for product optimization)
AI & Automation
23 uses
Updated 4/2/2026
Description
온보딩 카피, 가격 페이지 레이아웃, 알림 타이밍처럼 제품 안의 무언가를 더 좋게 만들 수 있다는 건 알지만, A/B 테스트를 수동으로 돌리기엔 너무 느리고 충분한 변형을 시도하지 못할 때 쓰는 프롬프트입니다. Karpathy의 autoresearch 패턴(https://github.com/karpathy/autoresearch)을 적용해, 각 반복이 이전 실험 위에 쌓이는 구조화된 실험 루프를 설계합니다.
Example Usage
당신은 "Karpathy Loop"를 적용하는 제품 전략가입니다. Karpathy Loop는 하나의 artifact를 반복적으로 수정하고, 하나의 objective metric으로 측정한 뒤, 각 변화를 유지하거나 버리는 자율 실험 패턴입니다. 목표는 감에 의존한 제품 최적화를 구조적이고 반복 가능한 실험 기계로 바꾸는 것입니다.
## Context
- Product: {{product_name}}
- 최적화하고 싶은 대상: {{optimization_target}}
(예: onboarding completion rate, landing page conversion, email open rate, feature adoption)
- 현재 baseline metric: {{current_metric_value}}
- 사용 가능한 measurement method: {{measurement_method}}
(예: analytics dashboard, LLM-as-judge scoring, user testing, click-through data)
## Step 1: 실험 아키텍처 정의
당신의 최적화 문제를 autoresearch 프레임워크에 매핑하세요.
### The Artifact (your "train.py")
- 매 iteration마다 agent가 수정할 단일 artifact는 무엇인가요?
- 예: landing page copy, onboarding flow script, push notification template, pricing tier description
- 현재 artifact의 버전을 verbatim으로 적으세요.
### The Objective Metric (your "val_bpb")
- 어떤 variant가 더 나은지, 더 나쁜지를 알려주는 모호하지 않은 단 하나의 숫자를 정의하세요.
- 이 숫자는 실험당 주어진 시간 예산 안에서 측정 가능해야 합니다.
- 실제 metric(예: conversion rate)이 너무 느리다면 proxy를 정의하세요.
- LLM clarity score (1-10) → user comprehension의 proxy
- Time-to-first-action → onboarding quality의 proxy
- Engagement prediction score → retention의 proxy
- **핵심 규칙:** 단 하나의 metric을 정의할 수 없다면, 이 패턴을 쓸 준비가 안 된 것입니다. 하나를 고르고 거기에 commit하세요.
### The Constraints (your "prepare.py")
실험 간 절대 바뀌면 안 되는 조건을 적으세요.
- Brand voice와 tone guideline
- Legal/compliance requirement
- Technical constraint (문자 수 제한, 형식 요구사항)
- Target audience 정의
### The Time Budget
- 각 experiment cycle은 얼마나 걸리나요? (measurement + analysis)
- 하루/주당 몇 개의 실험을 돌릴 수 있나요?
- ship해야 하기 전까지 전체 실험 창은 얼마나 남았나요?
## Step 2: program.md 작성
AI agent(또는 미래의 자신)를 이 실험 루프로 안내할 plain-English instruction을 초안 작성하세요.
1. **Hypothesis formation** — agent가 무엇을 바꿔봐야 하나요? 초기 실험 방향 5개를 적으세요.
- Tone variation (formal vs. conversational)
- Structural change (정보 순서, 길이)
- Emphasis shift (다른 value prop, 다른 pain point)
- Format change (bullet vs. paragraph, social proof 유무)
- Radical departure (완전히 다른 접근)
2. **Keep/discard rule** — "새 variant가 {{metric_name}} 기준 현재 최고점보다 높으면 유지하고, 아니면 되돌린다."
3. **Simplicity criterion** — "다른 조건이 같다면 더 단순한 것이 더 낫다. 복잡성을 늘리는 작은 개선은 가치가 없다."
4. **Persistence rule** — "눈에 띄는 아이디어가 떨어지면, 이전 상위 3개 variant의 요소를 조합하거나, 지금까지 효과 있던 방향의 반대를 시도한다."
## Step 3: 첫 5개 실험 실행
각 실험마다:
| # | Hypothesis | Change Made | Metric Before | Metric After | Keep/Discard |
|---|-----------|-------------|---------------|--------------|--------------|
| 1 | | | | | |
| 2 | | | | | |
| 3 | | | | | |
| 4 | | | | | |
| 5 | | | | | |
## Step 4: 패턴 분석
5개 이상의 실험 후:
1. 어떤 실험 방향이 가장 큰 개선을 만들었나요?
2. "kept"된 variant들은 어떤 공통점을 가지나요?
3. 어떤 가정이 틀렸다고 드러났나요?
4. diminishing return은 어디서 시작되나요?
5. proxy metric은 여전히 실제 outcome과 상관관계를 보이나요?
## Output
1. **Optimized artifact** — 모든 실험 후 현재 최고 버전
2. **Experiment log** — 무엇을 시도했고 무엇이 통했는지 전체 표
3. **Key insight** — 이 experiment loop에서 나온 가장 놀라운 발견 하나
4. **Next experiment batch** — 다음 iteration에서 시도할 가설 3개
5. **Pattern applicability** — 이 루프를 제품의 어떤 다른 영역에도 적용할 수 있나요?Customize This Prompt
Customize Variables0/5
Was this helpful?
Read the full guide
In-depth article with examples, pitfalls, and expert sources