コバリアンスの見えない力:A/Bテストにおける選択バイアスを克服する方法

誰も見たくない問題

想像してみてください:大手Eコマース企業が新しいデザインバナーを展開し、平均セッション時間を測定しています。データの最初の印象は多くの可能性を示唆しています — 0.56分の増加(約33秒のセッションあたり)。魅力的に思えますよね?しかし、ここから統計的深掘りの冒険が始まります。

ジレンマ:このバナーが本当に改善の原因だとどれだけ確信できるでしょうか?もし、技術に詳しい古参ユーザーが新規ユーザーよりも体系的に頻繁に新バナーを見る場合はどうでしょう?答えは、経験的研究の古典的な問題 — 選択バイアスに行き着きます。

t検定 vs 線形回帰:誤った対決

古典的なt検定はここですぐに答えを出します。コントロール群と処理群の差は正確に0.56分 — これだけです。しかし、よくある誤りは、多くのアナリストが線形回帰はより複雑なシナリオにのみ関係すると考えることです。これは誤りです。

では、代わりに線形回帰を、バナーの状態(1=表示、0=非表示)を独立変数、セッション時間を出力として使った場合はどうでしょう?驚くことに、得られる処理効果の係数は同じ0.56分です。偶然ではありません — 数学的には、これらの条件下で両者は等価であり、同じ帰無仮説を検定しているからです。

しかし、決定係数(R-平方)は問題を明らかにします:0.008しかなく、これは1%未満の分散しか説明できていません。このモデルは、実際にユーザーの滞在時間に影響を与える他の多くの要因を無視しています。

ゲームチェンジャー:共変量の追加

ここで、線形回帰の真の強みが発揮されます。追加の変数 — 例えば実験前のユーザーの平均セッション時間 — を導入すると、すべてが劇的に変わります。

モデルは一気に改善し、決定係数は0.86に上昇し、86%の分散を説明します。さらに重要なのは、処理効果が0.47分に低下することです。なぜでしょう?前述の共変量は、「スノーボール効果」を明らかにします — 既に長いセッションを持つユーザーは、初期の小さな差異が大きな効果に積み重なる、雪だるま式の行動パターンを示すのです。

この発見は非常に重要です:最初の0.56の効果は、選択バイアスによって一部過大評価されていました。自然に長いセッションを持つユーザーは、ランダムにグループ分けされていなかった — 彼らは処理群により多く集中していたのです。

数学的真実:ATE、ATT、SB

これを正式に表現すると:

  • ATE (平均処理効果):推定したい平均的な処理効果
  • ATT (処理を受けたユーザーに対する平均効果):実際に処理を受けたユーザーに対する効果 — これもACE (平均因果効果)と呼ばれる
  • SB (選択バイアス):真の効果を歪める選択バイアス

グループ平均値の単純な差は、これらの値を混合しています:

単純推定値 = ATE + SB

共変量を用いることで、バイアスを軽減し、真の効果に近づけることができます。

シミュレーションによる検証

真の効果が既知の(0.5分)の実験では、次のように示されます:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン