「A/Bテスト実践ガイド」のメモ(1章、2章)

 

効果検証の本として、「A/Bテスト実践ガイド」が良書らしいので勉強してみることに。どこまで読み進めるかは分からないけど、とりあえず先ほど読んでみた1章と2章について、面白いと思ったこと・考えたことなどをメモしておきます。

 

自分が忘れた頃に見返せるように書いているので本書を読んでなくても分かると思います。ただし本の内容を再現するというよりはあくまで気になったポイントをピックアップしているだけです。

ーーーーーーー
1部(1〜4章):すべての人向けの導入的トピック

1章:導入と動機付け

・アイディアの価値を事前に評価するのは難しい。これはたしかにそうだよなと思った。僕は割と「こうしたらもっとよくなるだろうなぁ」と自分がパッと思いついたアイディアに自信を持ってしまいがちだが、Microsoftでテストされたアイディアのうち実際に改善を示したのは30%程度であることや、Googleなどすでに最適化が進んでいる場合には10~20%であると書いてあり、アイディアを事前に評価することは確かに思ったよりも難しそう(だから効果検証は大事だよな)と改めて感じた。
 
・アイディアを出す文化と測定する文化は必ずしも反発しない。これはかなり重要な指摘だと思った。データを用いて何かを検証する姿勢は分析的な活動であり、創造的な活動とは反発するイメージを持っていたが、「どんどん実験してみよう」みたいなカルチャーになることでアイディアを出しやすくなることもありそう。
 
・ある施策の効果を測る変数を決める際に、「その変数はどのくらいの期間で測れるのか」も重要。たしかにビジネスにおいては1週間で測定できる変数と1ヶ月で測定できる変数ではずいぶん使い勝手に違いがあるのだろうと思った。研究においては別に1ヶ月かかるなら1ヶ月待てばいいやという判断になると思うので、ここはビジネスでは特に意識しなくてはいけなさそう。
 
・短期的に計測される実験的結果は変化嫌悪などによって歪められる可能性がある。「まぁそれはそうだよな」というかんじではあるが、それを踏まえると、最初に一定数のユーザーを対象にした短期的な結果を見てから少数のユーザーを対象にして長期的影響を見るみたいなプロセスになることもあるのだろうなと思った。

・これはイメージが更新されたことだが、特に大企業になると「1つの大きな実験をやりましょう」というより、「次にやるべき小規模な実験としてこれらがあって、中規模な実験としてこれらがあって、、」みたいに複数の実験を同時に抱えてハンドルする必要がある。研究だと基本的には単発だと思うので大きな違いだなと思った。

・これは疑問に思ったことだけど、例えばAという文字表示とBという文字表示について一年前の実験によってBの方が良いことが分かりBが現在は使われている。そして今回の実験で(Bの下では)Cという画像とDという画像ではDの方が良いと分かったのでDが採用されることになった。

みたいになったときに、もしかしたらAとCの組み合わせがベストかもしれないのに見落とされる可能性もありそうだなと思った。もちろんこのケースでは4パターンやれば良いのだけど、さらに数が増えた場合なども考えると、「どうしてAとBだとBの方が良いと判断されたのか」についての理論的な洞察を持くことも重要になりそうだと思った。例えば「赤が他に少ない状況だったのでB(赤色)の文字表示が好まれたのだろう」と分かっていれば、「CとDについては画像の大きさの比較であるため、AとBの比較との切り離し考えられるだろう」みたいな判断ができそう。

過去の実験との兼ね合いを実務ではどうしているのか気になった。

2章:実験の実行と分析 〜一連の流れの例〜

・購入手続きを始めた人が、商品の検索プロセスに戻ることもある。つまり通常想定されるプロセスを逆戻りしながら買い物をすることもあると指摘されており、こういうのは意外とやっかいな問題を引き起こしそうなので丁寧に考える必要がありそうだと思った。例えば購入画面にあるユーザーが3回アクセスしたとしても実質的にそれは1回の買い物の可能性もあるなど。

・仮説の実例として、「ーーーーを追加すると、購入プロセスを開始するユーザーの1ユーザー当たりの収益が低下する」という文が紹介されており、単なる「収益」ではなく「1ユーザー当たりの収益」としていたり、「サイトを訪問したユーザー」ではなく「購入プロセスを開始したユーザー」としていたりして、こういう言語化をするとピントが随分と定まるものだなと思った。「言語化しようと思えばいつでもできるから大丈夫」ではなく、一度立ち止まってこのへんの言語化をしておくのは重要そう。

・「ランダム化単位は何か?」という話が書いてあり、たしかに場合によってはユーザーごとのランダム化ではなく家族単位などにするのが妥当なこともありそうだなと思った(家族ごとに割り当てる割引の情報は同じにするなど)。

・「ターゲットにしたいランダム化単位の母集団は何か?」という話が書いてあり、たしかに特定地域などを対象にしたり、有料プランAの人たちについては全体的な表示を半年以内にいじる予定なので今回の細かい表示変更の実験対象からは外すなどはありそう。

・webサービスなどにおいて実験期間がある程度長いと、何回もアクセスしてくるユーザーがでてくる。この辺の扱いは場合によっては難しそう。

・実験規模(データ取得数など)の決定においては他の実験との兼ね合いやシステムへの負荷も考える必要がある。

・実験が適切に実行されたかをチェックするプロセスが必要。これはあまり考えてこなかったので新鮮だった。今回の実験によって変化するのはおかしい変数について違いが出ていないかの確認など。変化があったら何か手順にミスがあるなどの可能性が高い。

Fin.