2025년 8월 29일
성과가 좋은 광고 소재가 꼭 전환으로 이어질까? A/B 테스트의 함정
💡 이 글에서는 다음 내용을 확인할 수 있어요.
CTR은 올랐는데 매출은 그대로인 경험, 있으신가요?
A/B 테스트, 정말 ‘공정한 실험’일까?
Divergent Delivery 현상: 알고리즘의 숨은 개입
수치만으로는 놓치는 맹점과 보완 지표
결론: 데이터 해석 루틴 만들기
CTR은 올랐는데 매출은 그대로인 경험, 있으신가요?
예전에 광고 실험을 했을 때의 기억이 납니다. 버튼 색상을 바꾼 단순한 테스트였는데, 결과는 꽤 인상적이었습니다. 광고 소재 B안의 클릭률이 눈에 띄게 올라갔거든요. 그 순간만큼은 “아, 이번에는 확실히 개선됐다”라는 안도감을 느꼈습니다. 그런데 며칠이 지나도 매출 그래프는 별다른 반응을 보이지 않았습니다. 숫자는 분명 좋아졌는데, 실제 성과는 제자리걸음이었던 겁니다.
이런 경험은 생각보다 흔합니다. 겉으로는 지표가 개선된 것처럼 보이는데, 전환이나 매출로 이어지지 않는 경우가 많습니다. 심지어 고객들이 혼란을 겪거나 잘못된 기대를 하게 되면서 CS 문의가 늘어나는 상황도 있습니다. 클릭률만 보고 “됐다”고 판단했지만, 결국은 실패한 실험이 되는 셈이죠.

최근 Journal of Marketing과 American Marketing Association에서 발표한 연구도 같은 문제를 지적합니다. 특히 구글이나 메타 같은 플랫폼에서 진행되는 A/B 테스트는 우리가 믿는 것만큼 ‘공정한 실험’이 아닐 수 있다고 합니다. 알고리즘이 실험군을 나누는 과정에서 특정 버전이 전환 가능성이 높은 집단에 더 많이 노출될 수 있기 때문입니다. 결국 더 좋은 성과를 낸 것처럼 보이는 광고 소재 결과가 사실은 소재의 효과가 아닌 타겟 배분의 차이일 수 있다는 겁니다.
A/B 테스트는 분명 유용한 도구입니다. 하지만 이런 경험과 연구 결과를 떠올리면, 단순히 “B안의 CTR이 높았다”라는 이유로 소재의 결론을 내리는 건 위험할 수 있습니다. 이번 글에서는 왜 이런 일이 발생하는지, 그리고 결과를 어떻게 보완해야 하는지를 차근차근 살펴보려 합니다. 먼저, 많은 마케터가 가장 신뢰하는 분석 도구인 A/B 테스트가 어떤 방식으로 쓰이고 있는지부터 짚어보겠습니다.
A/B 테스트, 정말 ‘공정한 실험’일까?
A/B 테스트는 오랫동안 마케팅 분석의 대표 도구로 여겨져 왔습니다. 실제로 가장 많이 사용되는 전환율 최적화(CRO) 기법으로 꼽히며, 기업의 60%가 이미 사용하고 있고, 34%는 사용할 계획이라고 보고된 바 있습니다. 진입 장벽이 낮고, 사용하기 쉬우며, 무엇보다도 “과학적 실험”이라는 이미지를 제공하기 때문에 많은 마케터들이 가장 익숙하게 활용하는 방법이죠. 광고 소재의 성과를 비교하거나, 랜딩 페이지의 카피 효과를 검증할 때 빠지지 않고 활용하기도 하고요.
하지만 최근 American Marketing Association(AMA)이 소개한 연구는 A/B 테스트가 늘 믿을 만한 도구일 거라는 생각에 의문을 던집니다. 연구에 따르면, 광고 플랫폼에서 이루어지는 A/B 테스트는 단순히 집단을 반으로 나누는 방식으로 진행되지 않습니다. 구글이나 메타 같은 플랫폼은 광고 효율을 극대화하기 위해 알고리즘을 사용합니다. 이 과정에서 실험군이 균등하게 배분되지 않고, 서로 다른 특성을 가진 집단으로 나뉘는 현상이 발생할 수 있습니다.
예를 들어, A안과 B안을 테스트한다고 가정해 보겠습니다. 일반적으로는 두 집단에 동일한 조건을 적용해야 공정한 실험이 성립합니다. 하지만 알고리즘이 광고 효율을 높이려는 의도로 B안을 구매 가능성이 높은 집단에 더 많이 노출한다면, B안의 클릭률이 높게 나타나는 것은 당연한 결과입니다. 이런 경우 실험 결과는 광고 소재의 진짜 힘을 보여주는 것이 아니라, 알고리즘이 형성한 집단의 구성 차이일 가능성이 큽니다.
이처럼 A/B 테스트는 원래 ‘동일 조건에서 변수를 하나만 바꾼 뒤 그 효과를 비교한다’는 전제를 가지고 있습니다. 그러나 광고 플랫폼 환경에서는 동일 조건이 보장되지 않는 경우가 많습니다. 우리가 “더 좋은 성과를 낸 소재”라고 믿는 버전이 사실은 “더 유리한 집단에게 노출된 버전”일 수 있다는 것이죠.
실험 자체가 잘못됐다는 의미는 아닙니다. 다만 플랫폼의 작동 방식을 이해하지 못한 채 보고서 속 숫자만 믿고 결정을 내린다면, 잘못된 판단으로 이어질 위험이 커집니다. 실제로 AMA 보고서에서도 마케터들이 단기 성과 지표만 보고 판단할 경우, 장기 성과와 브랜드 신뢰도에서 손해를 볼 수 있다는 점을 강조하고 있습니다.
결국 중요한 질문은 이것입니다. “우리가 신뢰하는 A/B 테스트가 정말 공정한 실험이었을까? 그리고 그 수치가 말해주는 것은 소재의 힘일까, 아니면 타겟 배분의 결과일까?” 이 질문에 답하지 못하면, 숫자는 분명 개선된 것처럼 보이지만 실제 성과와는 어긋나는 결과를 반복해서 맞이하게 됩니다.
그렇다면 연구자들은 이 문제를 어떻게 설명했을까요? 조금 더 깊이 들어가 보면, ‘Divergent Delivery’라는 개념이 등장합니다.
Divergent Delivery 현상: 알고리즘의 숨은 개입
앞서 설명한 것처럼, A/B 테스트는 우리가 기대하는 만큼 공정하지 않을 수 있습니다. 그렇다면 이번엔 그 이유를 조금 더 자세히 파헤쳐 볼까요?
Journal of Marketing에서 발표한 연구는 이 문제를 ‘Divergent Delivery’라는 개념으로 정리합니다. 이는 광고 플랫폼이 실험군을 무작위로 균등 배분하지 않고, 서로 다른 성향의 사용자 집단에 각기 다른 버전을 노출하는 현상을 뜻합니다.
조경 회사의 사례를 하나 들어보겠습니다. 이 회사는 토종 식물과 물 보존에 중점을 두는 지속가능성 철학을 가지고 있으면서도, 동시에 정원의 아름다움과 디자인적 가치를 강조하고 싶어 합니다. 그래서 광고 실험을 진행할 때 두 가지 메시지 버전을 준비했습니다. 하나는 브랜드의 친환경적 가치를 내세운 지속가능성 광고(A), 다른 하나는 심미적 측면을 강조한 디자인 광고(B)입니다.
해당 회사의 마케터는 이 두 버전을 같은 조건에서 비교해, “우리 고객에게는 어떤 메시지가 더 효과적인가?”에 대한 답을 얻고 싶어 했습니다. 하지만 실제로 플랫폼은 실험군을 단순히 절반으로 나누지 않았습니다. 알고리즘은 야외 활동이나 환경 보존에 관심 있는 사용자에게는 A광고를, 인테리어나 주거 공간에 관심 있는 사용자에게는 B광고를 더 많이 노출했습니다. 이 경우 B광고의 클릭률이 더 높게 나오더라도, 이는 광고 자체의 우수성, 혹은 소재 메시지의 힘이 아니라 누구에게 노출되었는가라는 노출 집단 차이 때문일 수 있다는 것이죠.

이처럼 Divergent Delivery는 단순한 가설이 아니라 실제 광고 플랫폼 환경에서 반복적으로 나타나는 현상입니다. 문제는 광고주가 이 과정을 직접 통제하거나, 알고리즘의 작동 원리를 확인할 방법이 없다는 점입니다. 구글과 메타 같은 플랫폼의 목적은 공정한 실험 제공이 아니라 광고 효율과 수익 극대화입니다. 어떤 기준으로 집단을 나누고, 어떤 사용자에게 어떤 광고를 보여줄지는 플랫폼만이 알고 있습니다.
결국 Divergent Delivery가 보여주는 것은, 우리가 흔히 신뢰하는 A/B 테스트 결과가 반드시 광고 크리에이티브의 힘을 반영하는 것은 아니라는 사실입니다. 이는 온라인 광고의 구조적 특징에서 비롯되며, 무작위 실험처럼 보이지만 실제로는 알고리즘 최적화의 결과일 수 있습니다. 따라서 플랫폼 광고 성과 보고서에 나온 결과를 그대로 받아들이기보다, 어떤 집단에서 성과가 났는지, 집단 배분은 어떻게 달라졌는지를 함께 살펴야 진짜 의미를 읽을 수 있습니다.
하지만 여기서 문제가 끝나지는 않습니다. 설령 집단이 공정하게 나뉘었다고 해도, 우리가 결과를 해석하는 방식 자체에서 또 다른 착시가 발생할 수 있습니다. 이번에는 그 지점, 즉 ‘단일 지표가 만들어내는 판단 착시’에 대해 살펴보겠습니다.
수치만으로는 놓치는 맹점과 보완 지표
숫자만 보고 성급히 내리는 결론의 위험성
앞서 살펴본 Divergent Delivery 현상은, 우리가 보고 있는 A/B 테스트 수치가 광고 크리에이티브의 진짜 효과를 말해주지 않을 수도 있음을 보여줍니다. 문제는 여기서 그치지 않습니다. 설령 알고리즘 개입을 감안하지 않더라도, 많은 마케터가 단기 지표만 보고 성급하게 결론을 내리는 경우가 많습니다. 실제로, 클릭률(CTR)이 올랐다고 곧바로 성과가 개선된 것은 아닙니다. 전환율(CVR), 구매 흐름, 고객 경험까지 종합적으로 살펴야 진짜 의미를 이해할 수 있습니다.
예를 들어, 버튼 카피를 바꾼 뒤 CTR이 크게 오른 사례를 생각해보겠습니다. 클릭률은 올랐는데 전환 단계에서는 오히려 이탈이 늘었고, 고객센터에는 “광고 문구와 실제 혜택이 다르다”는 불만이 몰렸습니다. 숫자만 보면 성공이지만, 고객 경험을 고려하면 실패에 가까운 실험이었던 겁니다. 이런 상황은 흔히 “숫자 착시”라고 불립니다. 표면적인 지표에만 의존하면, 오히려 장기 성과와 브랜드 신뢰를 해치는 결정을 내릴 수 있습니다.
마케팅 Evolution에서 소개한 분석에 따르면, A/B 테스트를 통해 전환율 개선에 만족한다고 답한 비율은 28%에 불과했습니다. 즉, 대다수의 실험은 CTR이나 초기 반응 같은 일부 지표에서만 긍정적인 결과를 내고, 정작 매출이나 재구매 같은 본질적인 성과로 이어지지 못한다는 뜻입니다. 특히 앞서 설명했던 것처럼, 플랫폼 광고 환경에서는 알고리즘이 실험군을 왜곡하기 때문에 단일 지표만으로는 인과 관계를 설명하기 어렵습니다.
더 큰 문제는 실험이 가져다주는 심리적 안도감입니다. “소재 B안의 클릭 성과 매우 좋음”이라는 결과가 나오면, 팀은 일단 성공했다고 느끼고 다음 전략으로 넘어가곤 합니다. 그러나 퍼널 전체를 뜯어보면 전환 과정에서 생긴 마찰, 고객 불만 증가, 장기 충성도 하락 등 놓치고 있는 부분이 많습니다. 수치는 분명 개선됐지만, 그 뒤에 숨은 맥락을 놓치면 잘못된 선택을 반복할 수 있습니다.
실험 결과를 보완하는 3가지 지표
물론 A/B 테스트를 무용지물로 치부할 필요는 없습니다. 문제는 결과를 해석하는 방식에 있습니다. 단일 지표만 보고 결론을 내리는 것이 위험할 뿐, 보완 지표를 함께 살펴본다면 오히려 더 풍부한 인사이트를 얻을 수 있습니다. 특히 다음 세 가지 관점이 중요합니다.
첫째, 퍼널 단계별 전환율입니다. 많은 실험에서 CTR만 강조되지만, 클릭 이후 행동이 전환까지 이어지는지 확인하지 않으면 결과를 오해하기 쉽습니다. 장바구니 진입, 결제 완료, 회원가입 완료 등 각 퍼널 단계별 수치를 함께 보면, 클릭률 상승이 실제 매출 개선으로 이어졌는지 판단할 수 있습니다. 예를 들어, CTR은 올랐지만 결제 단계 이탈이 많다면 그 실험은 성공이라고 보기 어렵습니다.
둘째, 세그먼트별 성과 비교입니다. 동일한 광고라도 디바이스, 유입 채널, 지역에 따라 성과가 다르게 나타날 수 있습니다. PC에서는 B버전이 더 잘 먹혔지만, 모바일에서는 A버전이 유리할 수 있고, 특정 지역이나 채널에서는 결과가 정반대로 나타날 수도 있습니다. 따라서 평균 수치만 보는 대신 세그먼트를 나누어 살펴야 실제 고객군별 반응 차이를 확인할 수 있습니다.
셋째, 장기 지표입니다. 단기 클릭이나 전환을 넘어서 재구매율, NPS(Net Promoter Score), 고객 유지율 같은 장기 성과를 함께 고려해야 합니다. 어떤 광고가 일시적인 반응을 끌어냈는지보다, 시간이 지날수록 고객 충성도와 브랜드 신뢰에 어떤 영향을 주었는지를 파악하는 것이 더 큰 전략적 의미를 가집니다.

이 세 가지를 함께 보면 단기 수치에서 오는 착시를 넘어, 실제로 성과를 만들어내는 선택을 할 수 있습니다. 결국 중요한 것은 “CTR이 높았다”라는 단순 승부가 아니라, 퍼널 전체에서 어떤 흐름을 만들었는지, 각 세그먼트에서 어떤 차이가 있었는지, 장기적으로 어떤 가치로 이어졌는지를 종합적으로 해석하는 일입니다. 그렇게 해야 A/B 테스트가 단순한 보고서용 숫자를 넘어, 전략적인 도구로 활용될 수 있습니다.
결론: 데이터 해석 루틴 만들기
결국 중요한 것은 플랫폼이 던져주는 숫자를 그대로 믿지 않는 습관입니다. 실험 결과를 볼 때마다 교차 분석, 세그먼트 분리, 고객 여정 흐름 추적을 기본 루틴으로 삼아야 합니다. 예를 들어, CTR은 높지만 장바구니 이탈이 늘지는 않았는지, 모바일 사용자에게도 동일한 결과가 나타났는지를 점검하는 식입니다. 이런 과정을 반복하다 보면 단순히 보고서 한 장으로 끝나는 실험이 아니라, 전략으로 연결되는 실험을 만들 수 있습니다.
광고 플랫폼이 주는 숫자에만 의존하는 팀과, 그 조건과 맥락까지 검증하는 팀. 두 팀의 결과는 시간이 지날수록 크게 달라질 수밖에 없습니다. 결국 오래 살아남는 쪽은 수치를 의심하고, 데이터를 다시 확인하며, 장기 성과까지 살펴보는 팀일 것입니다. 지금 필요한 것은 더 많은 테스트가 아니라, 테스트를 어떻게 해석하고 루틴화할 것인가에 대한 태도입니다.
💡 실험 후 최소 3가지는 꼭 확인하세요
퍼널 단계별 전환율 – 클릭 이후 장바구니, 결제, 가입까지 흐름이 끊기지 않았는가?
세그먼트별 성과 차이 – 디바이스, 유입 채널, 지역별로 같은 결과가 나타나는가?
장기 지표 영향 – 재구매율, 고객 유지율, NPS 같은 장기 성과에도 긍정적 영향을 주었는가?
이 세 가지 질문을 루틴화하면 단순한 숫자 비교를 넘어, 실험 결과를 전략적 의사결정으로 연결할 수 있습니다.
이번 글에서는 A/B 테스트가 왜 착시를 만들 수 있는지, 그리고 어떤 보완 지표를 함께 봐야 하는지를 살펴보았습니다. 하지만 여전히 남는 질문은 “그럼 실제로는 어떻게 테스트를 설계하고 운영해야 하는가?”일 겁니다. 이 답은 다음 콘텐츠에서 구글 공식 가이드와 최신 모범 사례를 기반으로, 실험군·대조군을 어떻게 나누어야 하는지, 테스트 기간은 얼마나 설정해야 하는지, 어떤 변수와 지표를 우선적으로 관리해야 하는지까지 단계별로 구체적으로 다뤄보겠습니다. 단순히 “의미 있는 실험을 하라”는 원론을 넘어서, 바로 실무에 적용할 수 있는 How-to 매뉴얼을 전해드릴 예정입니다.