Невидима сила ковариат: як подолати упередженість вибору у A/B-тестах

Проблема, яку ніхто не хоче бачити

Уявіть собі: велика компанія електронної комерції запускає новий дизайн-банер і вимірює середню тривалість сесії. Перше враження від даних багатообіцяюче — зростання на 0,56 хвилин (близько 33 секунд за сесію). Звучить багатообіцяюче, чи не так? Але тут починається пригода з глибинним статистичним аналізом.

Дилема: наскільки ми можемо бути впевненими, що саме банер є справжньою причиною цього покращення? Що, якщо більш досвідчені користувачі старих технологій систематично бачать новий банер частіше, ніж новачки? Відповідь веде нас до класичної проблеми емпіричних досліджень — відбіркової упередженості.

T-тест проти лінійної регресії: неправильна дуель

Класичний T-тест швидко дає відповідь. Різниця між контрольною та експериментальною групою становить точно 0,56 хвилин — готово. Але поширена помилка: багато аналітиків вважають, що лінійна регресія потрібна лише для складніших сценаріїв. Це неправильно.

Що станеться, якщо замість цього застосувати лінійну регресію з статусом банеру (1 = видно, 0 = не видно) як незалежною змінною і тривалістю сесії як вихідною? На диво, ми отримаємо той самий коефіцієнт обробки: 0,56 хвилин. Це не випадковість — математично обидва тесту є еквівалентними за цих умов, оскільки вони тестують одну й ту саму нульову гіпотезу.

Однак R-квадрат виявляє проблему: з показником 0,008 ми пояснюємо менше ніж 1% варіації. Модель ігнорує багато інших факторів, які справді впливають на тривалість перебування користувачів на сайті.

Зміна гри: додавання ковариатів

Тут проявляється справжня сила лінійної регресії. Якщо додати ще одну змінну — наприклад, середню тривалість сесії до експерименту — все змінюється кардинально.

Модель раптово покращується: R-квадрат зростає до 0,86, тепер ми пояснюємо 86% варіації. Що важливіше: ефект обробки зменшується до 0,47 хвилин. Чому? Попередня ковариата виявляє “ефект сніжної кулі” — користувачі, які вже мали довгі сесії, демонструють схоже поведінкове зразок, при якому невеликі початкові відмінності накопичуються у значущі ефекти.

Це відкриття є вирішальним: початковий ефект у 0,56 був частково завищений через відбіркову упередженість. Користувачі з природно довшими сесіями не були випадково розподілені між групами — вони більш концентровано зосереджувалися у групі обробки.

Математична істина: ATE, ATT і SB

Щоб формалізувати:

  • ATE (Середній ефект обробки): середній ефект обробки, який ми прагнемо оцінити
  • ATT (Середній ефект обробки у оброблених): ефект саме для тих користувачів, що отримали обробку — також ACE (Середній причинний ефект)
  • SB (Відбіркова упередженість): упередженість відбору, що спотворює справжній ефект

Наївна різниця між середніми значеннями груп змішує ці величини:

Наївна оцінка = ATE + SB

З додаванням ковариатів ми можемо зменшити цю упередженість і наблизитися до справжнього ефекту.

Валідація за допомогою симуляції

У контрольованому експерименті, де справжній ефект відомий (0,5 хвилин), показано:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити