MVT(多変量テスト)とは?
A/BテストよりもMVTの方が一度にたくさんテストできるから、楽でいいじゃん。タグチメソッド使えばテスト回数も抑えられるし。みたいな話を時々、見聞きしますが、これはかなり危険です。「ツールにお任せ」に慣れきってしまっていて、思考能力が減衰しています。MVTはA/Bテストと比較してメリットは多々ありますが、解釈が難しく、しかも間違いやすいという欠陥があります。特にいわゆるタグチメソッドを用いると、危険性は急激に増加します。もちろん、正しく使えば有効な手法です。簡単ではないですが、MVTの基礎から正確に理解して使用するようにしましょう。それをしたくないのであれば、素直にA/Bテストを行なった方が良いと思います。
MVTの定義
A/Bテストは1対1のテストで、MVTは一度にたくさんテストをする。その通りです。シンプルです。ただ、MVTの定義が結構曖昧なので、ここではっきりさせておきます。
MVTはその名前の通り「多変量」でのテストです。つまり一回のテストでパラメータとなる変数が複数あることを示します。
例えば、1ページ内に3つ要素(=パラメータ)があり、その3つが各2パターンずつ切り替わる場合、MVTと呼びます。
これに対して、1ページ内に要素が1つで、それが3パターンある場合は、パラメータは1つのみなので、MVTとは呼ばないことにします。A/Bテストの1種(A/B/Cテスト?)と考えた方が適切です。
後者のパターンもMVTと呼ぶ場合がありますが、あまり適切ではないので、ここではMVTとは言わないようにします。
総当り方式について考える
「タグチメソッド」の話は後回しにして、まず総当り方式のMVTを考えます。ちなみに、別途書きますが、「タグチメソッド」は安易に用いるべきではないと考えています。あの統計の鬼のような企業であるGoogleが提供するGWO(Google Website Optimizer)で、なぜタグチメソッドを提供していないのか、を考えてみる必要があります。
さて、総当り方式の場合、テストパターンはシンプルです。要素が3つあり、各2パターンずつ変化させるというテストについて考えます。テストパターンは
2*2*2 = 8 パターン
のテストが行われることになります。
各組み合わせは以下の通りです。
I | II | III | |
---|---|---|---|
パターン1 | I-a | II-a | III-a |
パターン2 | I-a | II-a | III-b |
パターン3 | I-a | II-b | III-a |
パターン4 | I-a | II-b | III-b |
パターン5 | I-b | II-a | III-a |
パターン6 | I-b | II-a | III-b |
パターン7 | I-b | II-b | III-a |
パターン8 | I-b | II-b | III-b |
だいぶ面倒になってきました。
テスト結果は以下のようになりました。
インプレッション | CV回数 | CVR | |
---|---|---|---|
パターン1 | 1,000 | 37 | 3.7% |
パターン2 | 1,000 | 29 | 2.9% |
パターン3 | 1,000 | 98 | 9.8% |
パターン4 | 1,000 | 89 | 8.9% |
パターン5 | 1,000 | 100 | 10.0% |
パターン6 | 1,000 | 88 | 8.8% |
パターン7 | 1,000 | 97 | 9.7% |
パターン8 | 1,000 | 51 | 5.1% |
「テストパターン5」がCVR10%で一番良かった。テスト終了。よかったです。
とはなりません。
当然検定が必要になります。ただし、1対1の場合と異なって検定には注意が必要です。
カイ二乗検定を行ってみます。
CV notCV
1 37 963
2 29 971
3 98 902
4 89 911
5 100 900
6 88 912
7 97 903
8 51 949
> chisq.test(d)
Pearson's Chi-squared test
data: d
X-squared = 89.7871, df = 7, p-value < 2.2e-16
P値は「2.2e-16」と、ものすごい小さい値になりました。よって、違いがあると認められます。。。。。
何と何が違いがある??????
カイ二乗検定では、どのデータと、どのデータに違いがあるのかは判別することができません(残差分析を行うことによって、簡略的に推定することはできますが、ここでは省きます。残差分析はアンケート分析で良く利用されます)。カイ二乗検定で検定できるのは、あくまでも観測されたデータで違いがあるかどうかです。
データを解釈するには、ちょっと視点を変える必要があります。
全てのパターンを同列に扱うのではなく、
「オリジナルパターン+その他のパターン」
という形で考えてみます。
そして、オリジナルパターンと各パターンを1対1で比較して、どのパターンがオリジナルパターンよりも上回っているのかを考えます。ここでは、パターン1を「オリジナルパターン」として考えます。
面倒なので信頼区間で検定します。各信頼区間を計算すると、以下のようになります。
下限 | CVR | 上限 | |
---|---|---|---|
オリジナル | 2.53% | 3.70% | 4.87% |
パターン2 | 1.86% | 2.90% | 3.94% |
パターン3 | 7.96% | 9.80% | 11.64% |
パターン4 | 7.14% | 8.90% | 10.66% |
パターン5 | 8.14% | 10.00% | 11.86% |
パターン6 | 7.04% | 8.80% | 10.56% |
パターン7 | 7.87% | 9.70% | 11.53% |
パターン8 | 3.74% | 5.10% | 6.46% |
オリジナルパターンの「上限」よりも高い「下限」を持つパターンは、オリジナルパターンよりも効果が高いと言えそうです。
ここでは、「パターン3,4,5,6,7」がオリジナルパターンを超えています。
次に、オリジナルパターンを超えた5つのパターンのみで、再度テストを行います。一番CVRが高かった「パターン5」をオリジナルパターンとしましょう。
という風にして、繰り返すことで最適なパターンを見つけ出すことができます。うまくいけば2回で終わりますが、何回も繰り返す可能性もあります。
これでテスト終了です。よかったです。
しかし、これでは終わりません。
まだまだ深い分析を行うことができます。
ちょっと長くなったので、その話は次回にします。