어떤 제품 artifact든 최적화하는 autoresearch loop 실행하기(Run an autoresearch loop to optimize any product artifact)
landing page copy, onboarding script, email sequence, pricing page처럼 어느 정도는 작동하지만 아직 훌륭하진 않은 제품 artifact가 있을 때 쓰는 프롬프트입니다. 무엇을 고쳐야 할지 감으로 추측하지 말고, Karpathy의 autoresearch loop(https://github.com/karpathy/autoresearch)를 적용해 variant 생성 → metric 점수화 → 유지/폐기 → 반복을 수렴할 때까지 실행하게 합니다.
문제
제품팀은 생각보다 훨씬 많이 추측합니다. PM은 PRD를 쓰고 한 번 정도 검토한 뒤 엔지니어링으로 넘깁니다. 디자이너는 user flow를 만들고 한 번 피드백을 받은 뒤 최종이라고 부릅니다. artifact는 한두 번 좋아지고, 그 뒤 멈춥니다. 하지만 대부분의 제품 artifact에서 최고의 버전은 두 번째 초안이 아닙니다. 여섯 번째쯤입니다.
문제는 팀에 기준이 없어서가 아닙니다. 반복 개선이 비싸기 때문입니다. 리뷰 사이클 하나를 돌릴 때마다 회의를 잡고, 피드백을 기다리고, 충돌하는 의견을 정리하고, 수정사항을 손으로 반영해야 합니다. Atlassian에 따르면 지식 노동자는 한 달 평균 31시간을 비생산적인 회의에 쓰며, 그중 상당수는 비동기적 자동 피드백 루프로 대체할 수 있는 리뷰 세션입니다.
한편 제품 의사결정을 이끄는 artifact, PRD, design brief, 경쟁 분석, launch plan은 정작 자신들이 규정하는 코드보다 훨씬 적은 iteration을 거칩니다. GitClear 분석에 따르면 평균 pull request는 merge 전 2.4회의 리뷰를 받지만, 무엇을 만들지 정의하는 product document는 평균 1.1회 리뷰만 받습니다. 가장 중요한 문서가 가장 적게 리뷰됩니다.
Looping의 필요성
AI는 iteration의 경제성을 바꿉니다. 리뷰 사이클 하나가 5일이 아니라 5분이라면, 점심 전에 여섯 번 돌릴 수 있습니다. 제약은 "우리가 몇 번 리뷰할 수 있나"에서 "얼마나 좋은 품질까지 가고 싶은가"로 바뀝니다.
이 프롬프트의 작동 방식
이 프롬프트는 자율 최적화 루프를 세팅합니다. 어떤 제품 artifact든 받아 정의된 품질 기준으로 평가하고, 약점을 진단하고, 구체적으로 개선하고, 다시 비교하는 과정을 quality threshold에 수렴할 때까지 반복합니다.
루프는 네 단계로 움직입니다.
- Evaluate: AI가 현재 artifact를 당신이 정의한 rubric, 예를 들면 clarity, completeness, specificity, actionability, 혹은 커스텀 기준으로 평가합니다.
- Diagnose: 가장 약한 차원을 골라, 왜 약한지 텍스트 안의 구체적 증거와 함께 설명합니다.
- Improve: 강점은 유지하면서 방금 진단한 약점을 해결한 수정 버전을 만듭니다.
- Compare: 원본 대비 수정본을 점수화하고, 다시 돌릴지 멈출지 결정합니다.
루프는 개선 폭이 정해둔 threshold 아래로 떨어지거나 최대 iteration 수에 도달하면 종료됩니다. 출력에는 최종 artifact뿐 아니라 각 라운드에서 무엇이 좋아졌는지 보여주는 changelog도 포함됩니다.
언제 사용할까
- 어떤 제품 문서든 first draft가 있고, stakeholder를 부르기 전에 "review-ready" 수준까지 올리고 싶을 때
- PRD, 전략 메모, launch plan을 특정 품질 기준으로 stress-test하고 싶을 때
- 팀이 artifact를 너무 빨리 던져버리고 있어, 회의 없이도 작동하는 quality gate가 필요할 때
- 자신의 글이 체계적 압박 아래서 어떻게 좋아지는지 보고 싶을 때
흔한 함정
- 사람 검토 없이 루프를 너무 오래 돌리는 것: 3-4회 이후에는 AI 최적화가 과적합하기 시작할 수 있습니다. 문장만 매끄럽게 다듬다가 목소리를 잃거나, 정밀도를 높이다가 가독성을 희생할 수 있습니다. 3번 정도 돌릴 때마다 사람이 한 번은 봐야 합니다.
- 평가 기준이 모호한 것: "더 좋게 해줘"는 rubric이 아닙니다. 각 user story가 testable한가? 모든 requirement에 acceptance criterion이 있는가? 모든 assumption이 명시되어 있는가?처럼 차원을 분명히 하세요.
- 잘못된 artifact를 최적화하는 것: looping은 PRD, 전략 메모, launch plan처럼 레버리지가 큰 문서에서 가치가 큽니다. 회의 agenda를 여섯 번 반복 최적화하느라 시간을 쓰지는 마세요.
더 읽어보기
- You Waste a Lot of Time at Work - Atlassian
- Software Development Velocity Trends - GitClear
- The Art of Iteration in Product Development - Silicon Valley Product Group
Sources
- You Waste a Lot of Time at Work — Atlassian
- Coding Metrics Year in Review — GitClear
- The Inconvenient Truth About Product — Silicon Valley Product Group
Prompt details
Ready to try the prompt?
Open the live prompt detail page for the full workflow.