Search
✏️

B마트서비스기획팀 PM 김현정

태그
PM
목차
오늘은 과거 사례를 기반으로 B마트에서 실험 문화의 성숙단계를 지나온 과정들을 돌아보며, 이야기를 나눠보고자 합니다.
들어가기 전에 오늘 이 글에서 다루는 실험에 대한 개념을 잠깐 짚고 시작하겠습니다.
본 글에서 다루는 ‘실험’이란?‘ 온라인 종합 대조 실험’을 이야기할 예정입니다. 온라인 종합 대조 실험은 때로 A/B 테스트, 다중변형테스트, 분할 테스트라고 불리기도 합니다. 신뢰할 수 있는 데이터를 수집하고, 함정을 탐지하는데에 있어서 유효한 방법입니다. 시간에 따른 변화와 같이 다른 기법으로 탐지하기 어려운 변화의 감지가 가능하며, 예상치 못한 변화감지가 가능합니다. 데이터 기반 의사결정 프레임워크를 기반으로 더 좋은 결정을 하기 위해 실험을 진행합니다.
저는 배달의민족에서 개인과 상황에 맞는 가게,상품 추천알고리즘을 개발하는 추천시스템팀과 3년 넘게 합을 맞춰오고 있는데요, 추천 구좌가 0건이였던 2020년부터 시작해, 2023년 현재 모델링, 룰 베이스(간단한 로직 활용)를 통해 만든 추천구좌가 10개가 넘어가고 있습니다. 구축, 개선한 추천시스템의 결과가 유효한지에 대한 검증을 하기 위해서는 실험이 따라오지 않을 수 없습니다. B마트의 실험 성숙도는 꽤 높은 레벨로 올라온 과정에는, 추천시스템팀과 겪어온 시행착오들이 베이스가 되었어요.
실험 성숙도란 : 조직의 실험 문화 역량 레벨을 의미합니다.
지속적으로 도입여부의 성과판단, 모델과 로직을 개선 실험을 진행하면서, PM이 추천시스템 과학자, 분석가와 일하는 문화와, 실험 문화를 빌드업하는 과정을 거쳤습니다. 경험치가 쌓이면서, 추천 기능이 아니더라도 서비스 전반적으로의 실험들을 확장해나가게 되었습니다.
저희의 경험 나눔을 통해, 실험 문화의 성숙도를 높이려는 분들에게 시행착오를 단축시킬 수 있는 부분들이 있다면 작게나마 도움이 되길 바라며 오늘의 이야기를 풀어봅니다. 더불어 하단에 PM분들에게 배포했던 실험 가이드 중 일부인 실험설계서 초안 템플릿을 공유드립니다.

실험 문화의 성숙 단계. 여러분들이 속한 조직은 어느시점을 지나고 있나요?

실험 성숙도 모델은 데이터 중심적으로 변화를 실행하는 과정에서 조직이 겪을 가능성이 높은 단계들로 구성됩니다.
배달의민족 내의 각 서비스마다 처한 환경이 다르기 때문의 모든 조직의 상황이 같다고 보기 어렵습니다만, B마트의 경우, 실험 문화의 성숙단계를 1에서 4단계까지 거쳐왔습니다.
여러분들의 현재의 조직은 어느 단계에 와있는지 점검해보시고, 현재 단계에서의 목표를 확인해보세요.
조직이 실험의 성숙 단계를 거치면서, 실험에 대한 문화를 만들어나가는 것은 중요합니다. 각 단계에 맞추어 적절한 수행방법이 달라지고, 같은 수행방법이라도 효력의 크기가 상이할 수 있습니다. 현재 단계의 목표를 점검해보고, 적절한 보완방법을 생각해봐도 좋겠습니다. 책을 참고하여, 회사의 실험문화 단계를 다음과 같이 정리해보았습니다
 기어가기(1단계)
상황 : 주요지표를 측정하고, 원인을 설명할 수 없는 차이를 고려하기 시작합니다. 기본적인 실험에 대한 지식과 실험 환경을 구축하고, 소수의 실험을 도입해보는 단계합니다.
목표 : 기초적인 전제 조건과, 가설 테스트에 필요한 기본 데이터 능력을 구축하고 실험을 설계, 실행, 분석해보는 것. 성공적인 결과가 앞으로의 진보를 이끈다는 의미에서 몇 개의 실험을 성공시키는 것이 중요합니다.
걷기(2단계)
상황 : 소수의 실험을 실행하는 단계에서 조직이 더 많은 실험에 대한 필요성을 인지하고 움직이고자 변화하는 단계
목표 : 표준적인 지표를 책정해 조직이 더 많은 실험을 실행할 수 있도록 하는데 초점을 맞춥니다. 실험의 신뢰도를 높일 수 있도록 노력합니다.
‍기달리(3단계)
상황 : 다른 조직에서 실험의 필요성을 인지하고 데이터 조직에게 실험을 요청하는 단계. 조직은 실험을 사용해 새로운 기능과 변화를 평가하려고 합니다. 데이터팀이 주도적으로 실험을 설계, 진행, 리뷰를 합니다. 다른 팀도 실험의 필요성을 인지하고 데이터팀에게 실험을 요청합니다.
목표 : 많은 실험을 규모있게 실행하는 것. 합의된 목표를 달성하거나, 여러 지표간의 트레이드 오프를 포착하는 지표를 문서화하는데까지 이르는 모든 방법을 실시합니다◦
 날기(4단계)
상황 : 사내 개발된 실험 플랫폼이 존재하고 모든 조직이 실험을 주도적으로 하는 단계. 새로운 기능을 만드는 팀은 과학자의 도움없이 간단한 실험을 분석하는데에 능숙합니다.
목표 : 커진 규모의 테스트를 보조하기 위한 자동화로 초점을 옮기고, 실험과 변화를 기억하는 제도를 확립하여 과거의 실험으로 부터 학습을 가능하게 합니다. 결과와 모범사례를 공유해 실험 문화를 향상시키는 것이 목표가 됩니다. ‎
조직이 실험 성숙의 단계를 거치면서 문화를 확립하고, 적절한 지식을 학습하고 서로 공유하는 것은 중요합니다. 실험과 혁신을 장려하는 문화를 구축하기 위한 기본 전제는, 실패에 대해 받아들일 준비를 하는 것, 지표의 성공 여부가 아니라 학습을 중요하게 생각할 것, 실험의 영향에 대한 투명성이 있는 문화를 만들어가는 것입니다. B마트도 지속적으로 문화 확립을 위해 노력하고 있습니다.

실험 조직의 형태. B마트는 어떻게 되나요?

실험 조직의 구조는 중앙 집중식 구조, 분산 구조, 하이브리드 구조 3가지로 나누어볼 수 있습니다. B마트는 현재 하이브리드 형태에 가깝습니다. 1. 중앙 집중식 구조 : 회사 전체의 실험을 주도하고 각 팀의 필요에 따라 실험의 우선순위를 지정 2. 분산 구조 : 각 팀의 전문가가 다양한 실험 프로젝트를 동시에 실행 3. 하이브리드 구조 : 각 팀에 실험 유닛과 전문가가 결합 된 형태
PM이 목적을 달성하기 위한 실험 리스트를 뽑고, 우선순위를 결정합니다. 실험 설계서 초안을 작성 한 후, 협업부서인 분석가분들이나 추천시스템 과학자 분들과 논의하며 실험에 대한 세부설계를 다듬어나갑니다. 아직 실험을 진행해보지 않은 PM분들이 실험을 설계하거나, 실험의 결론을 내릴 때 고민이 되는 부분을 해결할 수 있도록 팀 내에 실험 경력이 많은 PM들이 서포트를 하며 실험 성숙도를 같이 올려나가고 있습니다.
실험 성숙도 4단계 예시와 같이, 간단한 실험의 경우에는, 위의 가이드를 토대로 실험을 설계하고 팀 내에서 PM들 끼리 실험설계와 분석결과의 해석을 보완하고 있습니다.

B마트. 3년간의 빌드업을 통해 할 수 있게 된 것

B마트가 실험 0건의 조직에서 실험을 가장 활발하게 하는 조직이 된 지금, 저희가 할 수 있게 된 일은 다음과 같습니다.
1.
지난 실험을 통해 특정 지표를 올리려면, ‘어느 퍼널에서 어떤 액션을 취할 때 더 효과적일 것이다’ 라는 가설을 세울 수 있는 근거 데이터들이 쌓였습니다. 목표에 더 효과적으로 도달할 수 있는 방법이, 무엇인지 고민하고, 더 유효한 전략이니 과제 우선순위를 바꿔야한다고 설득하고 실행할 수 있습니다. 장기간의 일련의 실험은 전체적인 전략에 대해 정보제공이 가능합니다.
2.
더 많은 실험을 빠르게 논의하고, 진행할 수 있게 되었습니다. 이는 실험에 대한 심리적, 물리적 허들이 낮아졌음을 의미합니다. 이는 또한 이런 허들을 낮추기 위한 보완책과 문화가 마련 되었음을 의미합니다.
3.
디자이너, 개발자와의 합 뿐만 아니라, 분석가, 추천시스템 과학자, 엔지니어들과의 맥락을 함께하고 합을 맞추는 방법이 익숙해졌습니다.
4.
실험을 통해 쌓은 경험으로, 새로 합류하는 분들이 실험을 설계하거나, 협업, 분석할 때 참고할 수 있는 가이드라인을 제공할 수 있게 되었습니다. 경험이 쌓인 PM들이 본인의 경험과 지식을 서로간 이식 시켜주고 있어요. B마트 외의 다른 조직이 도움이 필요한 경우, 경험을 나누어줄 수 있습니다.
5.
조직 전체가 실험에 근간이 되는, 데이터 로깅에 대해 더 중요하게 생각하게 되었습니다.
6.
본인이 낸 아이디어더라도, 쉽고, 유리한 쪽으로 해석하지 않으려는 깐깐한 문화를 가지고 있습니다. 유의하지 않으면 실험 결론을 잘못 도출할 수 있는데, 이러한 부분들을 구성원들이 짚어내고 논의할 수 있습니다.

PM으로서 실험의 가장 큰 레슨런

매 실험마다 레슨런이 있죠. 프로덕트와 고객에 대한 레슨런 뿐 아니라, PM으로서 실험을 어떻게 바라보고, 진행해야하는지 대한 레슨런들은 더 많습니다.
예를 들어서 커머스 특성상 편의성 지표와 매출 지표가 트레이드 오프되는 순간들을 자주 맞닥뜨리게 되기 때문에 이 때의 의사결정과정, 실험설계, 프로덕트 설계를 어떻게 하면 좋을지에 대한 부분들도 있고요.
실험의 우선순위를 어떻게 결정하냐는 질문에는 ICE 프레임워크 (과제 우선순위 선정에 활용할 수 있는 프레임워크. 문서 최하단에서 별도 설명 첨부) 기반으로 사고하면 도움이 된다는 답변을 하곤 합니다만, 의도적으로 임팩트가 적은 과제를 먼저 진행한 적도 있습니다.
정확히 말하면, 프로덕트를 발전시킬 동력을 얻기 위해서, 의도적으로 임팩트는 적지만, 도입에 대한 의견 충돌은 적고 레슨런도 명확하여 ‘실험에 대한 신뢰 자산 자체를 얻기 위한 실험을 먼저 실행’한 것이라고 보면 되겠습니다.
임팩트가 클 것이라고 생각한 실험은 의견수렴과 도입방향을 결론 짓는데에 많은 난관이 예상되었기 때문에, 이 실험을 추진하기에 지지를 얻을 수 있는 레슨런이 있는 실험을 먼저 선택하여 진행한 것이지요. 덕분에 기능 도입자체에 난항을 겪을 것으로 예상한 다음 실험들이 순조롭게 굴러갔습니다.
또 다른 예시로는 최근까지도 실장님께 당당하게 winner 일 것이라고, 호언장담했던 UX 실험안 B그룹의 지표가 실험안 C그룹보다 낮은 경우들도 있어 뇌피셜을 반성하던 순간들도 있었고요.
PM의 뇌피셜이 틀렸던 실험 결과 엿보기 공유)
평균주문금액을 높이기 위해 실행했던 주문틈새추천 기능
장바구니 지면 이후, 결제직전에 등장하는 기능입니다. 일부 지표들만 공개하자면, 가드레일 지표 (적어도 떨어져서는 안되는 지표)로 주문 전환율을, 목표지표로는 평균주문금액과 상품구매종수를 설정했습니다.
기능 도입여부의 성과 판단 뿐 아니라, 목표지표를 높이기 위한 가장 효과적인 UX안도 함께 검증했습니다. B그룹을 winner로 예상했던 저와 달리, 목표지표에 더 큰 영향을 미친 것은 C그룹이였습니다.
( 위의 주문틈새추천 실험에서는 단순 기능 도입의 성과 확인과, UX안 winner 선정뿐 아니라, 왜 그 UX가 더 성과가 좋았을 지에 대한 인사이트, 어떤 컨셉 구좌를 어떤 순서대로 노출 했을 때 영향이 있는지에 대한 추가 데이터분석 결과가 더 유의미하고 재밌습니다만.. 이번 글에 포함하기엔 너무 길어서 생략합니다. 언젠가 주문틈새추천 실험에 대해 별도 오픈할 수 있는 날이 있길 바라며… )

실험을 돌리는 조직이 되기 위해 필요한 것들

실험의 심적 허들이 낮은 팀이 되기까지의 시행착오의 시간은 3년 정도의 시간이 걸렸습니다.
돌이켜보니, 실험을 돌리는 조직이 되기 위해서 이런 체크리스트들을 세워볼 수 있겠습니다. 체크 리스트를 아직 채우기 힘든 상황이라면, 각 체크리스트 마다의 대안을 함께 제시해봅니다.
1.
실험을 하기 위해 들어가는 리소스를 확보할 수 있는 상황인지
2.
데이터 로깅에 대한 중요성을 알고 있는 조직인지
3.
실험 설계에 대한 허들을 낮추기 위한 보완책이 존재하는지
4.
실험 결과를 해석하는 역량을 높이기 위해 의견 교류가 원활하며 노력을 하고 있는지

1.실험을 하기 위해 들어가는 리소스를 확보할 수 있는 상황인지

실험을 위해서는, 실험 연동, 설계, 분석, 그리고 실험을 통해 구현할 기능들을 만들 리소스가 필요합니다. 실험을 하는데에 있어서 초기 단계의 가장 어려운 챌린지 중 하나는 실험을 하기 위해 들어가는 리소스라고 생각하고 있습니다. 제가 입사했던 2019년도에는 B마트의 기본적인 커머스 뼈대를 만들기만 하는데에도 여력이 없는 상황이였습니다. 현실적으로 시장에서 프로덕트가 살아남을 수 있다는 가설이 검증되고 난 뒤, 프로덕트가 시장에서 더 잘 살아남기 위한 실험들을 시작할 수 있었습니다.
대안)
지금 당장 가용 가능한 리소스가 없다고 하더라도, 실망하지 마세요. 현재 쌓고 확인할 수 있는 데이터는 무엇인지 점검,보완할 수 있는 기회로 삼을 수 있습니다.
데이터 문해력에 대한 이해없이 실험을 바로 도입하고자 한다면, 진통이 크기 때문에, 오히려 구성원들이 데이터를 보는 기초 문화, 데이터 문해력을 쌓아나갈 수 있는 시기이기도 합니다. 이는 ‘데이터 로깅에 대한 중요도’와 맥을 함께 합니다. 또한 작은 리소스로 레슨런을 쌓을만한 실험들이 있을지 엿볼 수 있는 기회이기도 합니다.

2.데이터 로깅에 대한 중요도를 알고 있는 조직인지

공을 들여 데이터를 설계하고, 개발하지 않으면 수집할 수 있는 데이터가 없기 때문에 멋진 실험, 멋진 추천시스템을 꿈꾸더라도 한계가 있을 수 밖에 없습니다.
다행히 실험을 진행하진 않던 시점에도, 현황을 확인하기 위해 행동 로그는 꾸준히 설계하고, 개발하고 있었기 때문에, 활용할 수 있는 데이터가 무엇인지에 대한 논의가 가능했습니다.
대안)
몸 담은 도메인과 데이터의 특성을 이해할 수 있어야 하고, 좋은 데이터가 쌓일 수 있도록 개발, 설계하는 부분의 중요도를 인지할 수 있어야 합니다. 데이터 로깅, 설계, 검수에 대해 중요한 작업을 하고 있다는 구성원들의 인정이 있는 문화가 필요합니다.

3.실험 설계에 대한 허들을 낮추기 위한 보완책이 존재하는지

A/B 테스트를 진행한다고 하더라도, 보고자 하는 가설과 지표의 방향의 혼선이 있다면, winner가 winner가 아니겠죠. 가설이 뚜렷하고, 가설을 통해서 확인하고자 하는 지표가 뚜렷해야 하는데, 이를 처음 설계할 때에는 어려움이 있을 수 있습니다. 이러한 지식의 대한 부담감 때문에, 실험을 해본 기회가 없는 PM들이 계속해서 실험에 대한 아이디어를 내지 못하면 조직,프로덕트 모두에게 손실이라고 생각했습니다.
실험을 진행해본 적이 없는 PM들이라도, 실험을 설계할 때 참고할 수 있는 체크리스트와, 실험 설계서, 실험 리포트 탬플릿을 만들었습니다. 이 가이드로 만든 초안이 완벽하진 않더라도, 이를 기반으로 더 정밀한 도움을 요청받을 수 있기 있도록 하는게 심적 장벽을 낮춰줄 것이라고 생각했습니다.
실제로 B마트에 합류하는 구성원들의 실험 사례는 점점 늘어나고 있습니다. 실험을 준비하는 과정에 있어서의 실행속도 또한 점점 빨라지고 있습니다.
 실험 허들을 낮추기 위해 작성, 사내에 배포했던 가이드 및 템플릿 목록
[[가이드] PM을 위한 A/B 테스트 체크리스트] [[템플릿] A/B 테스트 설계서][[템플릿] A/B 실험 결과 중간공유 & 2차 실험 계획] [[템플릿] 실험 배포 과제 취합 리스트]‎ ▼작성 배포한 체크리스트 목차 엿보기 (작성 후 프로덕트데이터분석팀의 검수를 받았습니다.)
▼체크리스트 엿보기
대안)
조직 구성원들이 자주 묻는 내용, 실험 연동, 실험 배포 가이드, 모니터링 가이드, 실험 기술 용어들을 정리하여 실험에 대해 궁금할 때 마다 꺼내 볼 수 있도록 문서화하는 작업들이 필요합니다.
실험 연동 방법 부터, 플랫폼 사용법, 실험 설계서 작성, 분석 리포트 양식까지 내용이 방대하기 때문에 개인이 혼자 진행하는 것보다 조직차원에서 함께 협업, 보완할 수 있으면 좋습니다. (저희도 실험연동 방법, 플랫폼 사용법은 공통서비스개발팀에서 따로 작성했습니다.)
실험허들을 낮추기 위한 보완책으로 본 글을 읽는 분들이 활용하실 수 있도록 글 최하단에, 사내에 공유했던 실험 체크리스트와 실험 설계서 탬플릿 일부를 첨부합니다.

4.실험 결과를 해석하는 역량을 높이기 위해 의견 교류가 원활하며 노력을 하고 있는지

결과를 해석하고 의사결정에 반영하는 과정은 어렵습니다. 실험이 깔끔하게 떨어지면 좋지만, 아닌 경우들도 존재하기도 하고요. 종합적인 판단이 필요합니다.
함정카드가 많은 상황에 놓이게 됩니다. 아래는 그 상황의 예시입니다. 이 상황에 처했을 때 어떻게 해야할까요?
Q1.해당 기능을 사용하는 고객들을 코호트로 보면 평균주문금액이 높으니, 해당 피처가 평균주문금액 향상에 기여한다고 볼 수 있나요?
Q2.두 지표가 비슷하면 효과가 없다고 결론 내고, 바로 다른 실험을 하나요?
Q3.통계유의성이 낮으면 기간을 늘리나요?
코호트란? : ‘특정 기간 동안 공통된 특성이나 경험을 갖는 사용자 집단‘을 의미합니다.
위 질문에 대한 답은 아래와 같습니다.
Q1.해당 기능을 사용하는 고객들의 평균주문금액이 높으니, 해당 기능이 평균주문금액 향상에 기여한다고 볼 수 있나요?
NO. 이렇게 해석하면 기능을 만든 팀에게 유리한 해석이지만 냉정하게도 그렇게 해석하지 않습니다. ‘해당 기능을 사용하는 고객들’의 코호트 특성상 처음부터 평균주문금액이 높은 집단일 수도 있다는 점을 인지하고 바라봐야합니다. 아쉽게도 도입한 기능과의 인과관계로 바로 연결시킬 수는 없기 때문에, 해당 기능 사용 유무 집단간의 평균주문금액 편차만큼의 영향을 미쳤다고 리포트하는 것을 유의해야합니다.
Q2.두 지표가 비슷하면 효과가 없다고 결론 내고, 바로 다른 실험을 하나요?
NO. 보조지표와 가드레일 지표를 보고, 세그먼트 단위로 나누어서 분석해보고 방향을 검토해봅니다.
Q3.통계유의성이 낮으면 기간을 늘리나요?
NO. 예상한 적정 표본 규모를 충족한 이후에도, 효과 크기의 차이의 매우 작고 변화가 없다면, 통계적 유의성만을 확보하기 위해 실험기간을 무한정 늘리는 것은 적합하지 않습니다. 실험 기간을 연장해서 표본을 더 확보하면 표본 오차가 작아져서 적은 표본 대비 높은 통계 유의성을 얻을 가능성은 생기지만, 신기효과, 초두효과와 같이 도입 이후 시간이 지남에 따라 변화하는 요인으로 인해 지표 분석이 어려워지는 단점도 있습니다. 다만 실험 오픈 이후에 실험의 규모, 집계기간을 재검토해 볼 필요는 있습니다. 실험 전 최소 기대효과 크기를 산정해보는 것도 적정모수 산정, 통계 유의성을 바라보는데에 도움이 됩니다.
오용되기 쉬운 – ‘모수’와 ‘표본’
모수 (Parameter): 단순히 모집단의 수가 아니라, 모집단의 통계값. (모집단 수라고 오용될 수 있는 부분을 유의). 모평균이나 모표준 편차 같은 모집단에 대한 통계 값을 의미함.
표본 (Sample): 모집단의 부분집합. 표본이 해당 ‘모집단’의 특성치를 추정하기에 적당한 것인지를 고민해야 함.
초두 효과와 신기 효과의 차이
초두 효과 (Primacy Effect) : 사용자들이 기존 제품/방식에 익숙하고 변화를 꺼려하여 발생하는 효과
신기 효과 (Novelty Effect) : 변화를 좋아하고 기존 제품/방식보다 새로운 기능을 선호하여 발생하는 효과
대안)
다양하고 복잡한 상황 속에서, 어떻게 실험결과를 해석해야하는지에 대한 역량은 팀과 분석가, 추천시스템팀 과학자 분들과 함께 계속해서 갈고 닦아나가야 합니다. 사내의 전문가에게 기대어 성장할 수 있는 상황이라면 좋지만, 아니라면 사내 스터디를 열어 볼 수도 있습니다.

책 추천 리스트

A/B 테스트 (론 코하비)
난이도 상입니다. 읽다가 어려워서 덮었다는 분들이 속출. 다만 그만큼 찐 실험 실무를 뛰고 있는 분들이 점검하기에 좋고, 유용하다고 느끼는 책입니다. 혼자 읽기 힘드니 구성원들과 같이 읽고 잠시 지적충만감에 취하기에 딱 좋습니다.
저도 최근에, 저희 팀 PM+프로덕트데이터분석가+사내 실험플랫폼을 만드는 공통서비스개발팀의 개발자, PM분들을 꼬셔서(?), 위의 하마책을 읽는 스터디를 개설했습니다.
실리콘밸리의 실험실 (스테판 H. 톰키)
난이도 초~중. A/B테스트 책이 두려우실 분들 실리콘밸리의 실험실부터 권장드립니다.
데이터 문해력 (카시와기 요시키)
난이도 초~중. 기본적인 데이터문해력을 갖추기에 좋은 책. 데이터를 해석하는 데에 있어서 유의해야 할 부분들을 반성하기 좋은 책입니다.
본 책으로도 사내 스터디의 한 사이클을 완료했습니다. 책이 두껍지 않지만, 내용은 뼈를 때리기 때문에, 본인이 다루고 있는 프로덕트 사례를 대입하며 읽어보기 좋습니다.
난이도 초~중
리디셀렉트로 1편씩 나왔을 때 부터, 재미있게 읽었는데 책으로 나왔습니다. (리디셀렉트 링크는 현재 삭제됨) 2021년에 팀원들과 기본적인 서비스 지표 스터디하고자 자료 찾던 중에 꼭 필요한 지식들은 쉽고 재미있게 알려줘서 유익하게 인용하며 공부할 수 있었습니다. 웹툰 형식인데, 그림도 귀여워서 데이터책은 모두 무서울 것 같다는 편견이 있는 초급자 분들에게 반가운 책입니다. 함께 근무해 본 적은 없으나, 우아한형제들에 몸 담으셨던 이력이 있는 분석가 분이 저자.

Q. PM이 실험을 대하는 관점에 있어서 분석가보다 유의해야 할 부분이 있다면요?

PM이라면 하나의 실험을 잘 설계하는 것도 중요하겠지만, 어떤 실험을 먼저할 것인지 방향을 짜고 구성원들과의 협의를 모으는 부분을 한 줄기로 생각하고 있으면 좋을 것 같아요. 과제의 우선순위를 정하고 실제 실행으로 옮기는 액션으로의 결정을 PM이 지고 있기 때문에, PM이 다른 직군들과 비교해 본인의 역할을 더 할 수 있는 부분이라고 생각됩니다.
또한 우리가 가용할 수 있는 리소스는 한정적이기 때문에 이 관점을 이야기하는 것이기도 합니다.
어떤 것을 하기로 한 결정은 어떤 것을 하지 않기로 한 결정과 동일합니다. 어떤 실험을 하는 것이 더 큰 임팩트를 낼 수 있는지, 프로덕트를 발전시키는데에 도움이 되는지, 현재의 제약에서 현실적인 방안과 돌파구는 무엇인지 생각해야 합니다.
또한 망치를 들고 있으면 모든 것이 못으로 보이는 마법을 유의해야합니다. 어떤 문제점을 해결하기 위해서 내가 주로 임하거나, 관심이 있는 도메인의 피처로 해결을 고집하지 않고, 더 좋은 안이 있다는 것도 사고를 열어두면 좋겠습니다.
모든 조직이 처음부터 실험 성숙도가 높을 수는 없습니다.
모든 구성원들의 데이터 문해력이 처음부터 높을수도 없다고 생각합니다.
다들 기어가기 단계를 거쳐 뛰어다닐 수 있게 된 것처럼요.
아직 저도 갈 길이 멀지만, 성숙도 향상을 위해서 손 내밀어주신 구성원들이 있었기 때문에 오늘의 글을 쓸 수 있었다고 생각합니다. 이 글을 읽고, 조직 문화를 빌드업 해나가보려고 고민하시는 분들이 있다면, 서로 끌어주고 지지해주시기를 응원합니다.
발전해나가는 과정들을 가꿔나가다 뒤를 돌아보면, 조직이 이만큼 발전해있는 모습들이 신기하고 재미있을 것이라고 장담해봅니다.
B마트의 발전은 현재 진행형입니다.

실험 허들을 낮추기 위한 체크리스트와 설계 템플릿 나눔

긴 글 읽어주신 분들에게 감사드리며, 필요하신 분들이 활용하실 수 있도록 체크 리스트와 실험설계서 초안 탬플릿 일부를 공유합니다.
각 조직의 상황에 맞게 변경해서 쓰실 수 있습니다.
 PM을 위한 A/B 테스트 체크리스트_외부공유용
이러한 B마트와 일하고 싶다면?
부가 설명)
‘ICE 프레임워크’ 란 ?
각 항목에 맞는 점수를 도출한 후 곱하여 총점 계산. 해당 점수를 바탕으로 과제 우선순위 선정에 참고할 수 있는 프레임워크. 각 항목이 클 수록 높은 점수를 매깁니다.
Impact : 실험이 성공하면 임팩트가 얼마나 클까?
Confidence : 실험이 성공할 것이라는 확신이 얼마나 클까?
Ease : 실험 구현이 얼마나 쉬울까?
‘가드레일 지표’ 란 ?
(Guardrail Metric) 적어도 낮아져서는 안되는 지표. 실험 대상 기능의 배포를 위해서는, 가드레일 지표에 부정적인 영향이 없었는지 점검해야 합니다. 핵심지표가 높아졌다 하더라도, 가드레일 지표가 낮아졌다면 성공했다고 결론내릴 수 없습니다. 가드레일 지표를 정의하고 실험을 설계하면 떨어져서는 안되는 중요지표성과가 낮아지는 것을 유의하고 프로덕트를 설계할 수 있습니다.
오용되기 쉬운 – ‘모수’와 ‘표본’, ‘샘플 사이즈’ )
‘모수’ 라는 개념을 혼용 기술하여 정정하였습니다. 해당 개념에 대해 조금 더 상세한 내용들이 첨부된 글을 함께 기술합니다.
참고 자료)
실험 성숙도 모델
A/B 테스트 (론 코하비)
실험 조직의 구조
3 ways to build a data-driven marketing team (Casey Carey, thinkwithgoogle)
본문 언급 외 사내 실험문화 향상에 영향을 준 소스)
그로스 해킹 (양승화)