MVT(多変量テスト: MultiVariate Test)を本当に理解する:Part1


MVT(多変量テスト)とは?

A/BテストよりもMVTの方が一度にたくさんテストできるから、楽でいいじゃん。タグチメソッド使えばテスト回数も抑えられるし。みたいな話を時々、見聞きしますが、これはかなり危険です。「ツールにお任せ」に慣れきってしまっていて、思考能力が減衰しています。MVTはA/Bテストと比較してメリットは多々ありますが、解釈が難しく、しかも間違いやすいという欠陥があります。特にいわゆるタグチメソッドを用いると、危険性は急激に増加します。もちろん、正しく使えば有効な手法です。簡単ではないですが、MVTの基礎から正確に理解して使用するようにしましょう。それをしたくないのであれば、素直にA/Bテストを行なった方が良いと思います。

MVTの定義

A/Bテストは1対1のテストで、MVTは一度にたくさんテストをする。その通りです。シンプルです。ただ、MVTの定義が結構曖昧なので、ここではっきりさせておきます。
MVTはその名前の通り「多変量」でのテストです。つまり一回のテストでパラメータとなる変数が複数あることを示します。
例えば、1ページ内に3つ要素(=パラメータ)があり、その3つが各2パターンずつ切り替わる場合、MVTと呼びます。

これに対して、1ページ内に要素が1つで、それが3パターンある場合は、パラメータは1つのみなので、MVTとは呼ばないことにします。A/Bテストの1種(A/B/Cテスト?)と考えた方が適切です。

後者のパターンもMVTと呼ぶ場合がありますが、あまり適切ではないので、ここではMVTとは言わないようにします。

総当り方式について考える

「タグチメソッド」の話は後回しにして、まず総当り方式のMVTを考えます。ちなみに、別途書きますが、「タグチメソッド」は安易に用いるべきではないと考えています。あの統計の鬼のような企業であるGoogleが提供するGWO(Google Website Optimizer)で、なぜタグチメソッドを提供していないのか、を考えてみる必要があります。

さて、総当り方式の場合、テストパターンはシンプルです。要素が3つあり、各2パターンずつ変化させるというテストについて考えます。テストパターンは
2*2*2 = 8 パターン
のテストが行われることになります。
各組み合わせは以下の通りです。

I II III
パターン1 I-a II-a III-a
パターン2 I-a II-a III-b
パターン3 I-a II-b III-a
パターン4 I-a II-b III-b
パターン5 I-b II-a III-a
パターン6 I-b II-a III-b
パターン7 I-b II-b III-a
パターン8 I-b II-b III-b

だいぶ面倒になってきました。
テスト結果は以下のようになりました。

インプレッション CV回数 CVR
パターン1 1,000 37 3.7%
パターン2 1,000 29 2.9%
パターン3 1,000 98 9.8%
パターン4 1,000 89 8.9%
パターン5 1,000 100 10.0%
パターン6 1,000 88 8.8%
パターン7 1,000 97 9.7%
パターン8 1,000 51 5.1%

「テストパターン5」がCVR10%で一番良かった。テスト終了。よかったです。
とはなりません。
当然検定が必要になります。ただし、1対1の場合と異なって検定には注意が必要です。
カイ二乗検定を行ってみます。

> d
   CV notCV
1  37   963
2  29   971
3  98   902
4  89   911
5 100   900
6  88   912
7  97   903
8  51   949
> chisq.test(d)

        Pearson's Chi-squared test

data:  d
X-squared = 89.7871, df = 7, p-value < 2.2e-16

P値は「2.2e-16」と、ものすごい小さい値になりました。よって、違いがあると認められます。。。。。
何と何が違いがある??????
カイ二乗検定では、どのデータと、どのデータに違いがあるのかは判別することができません(残差分析を行うことによって、簡略的に推定することはできますが、ここでは省きます。残差分析はアンケート分析で良く利用されます)。カイ二乗検定で検定できるのは、あくまでも観測されたデータで違いがあるかどうかです。

データを解釈するには、ちょっと視点を変える必要があります。
全てのパターンを同列に扱うのではなく、

「オリジナルパターン+その他のパターン」

という形で考えてみます。
そして、オリジナルパターンと各パターンを1対1で比較して、どのパターンがオリジナルパターンよりも上回っているのかを考えます。ここでは、パターン1を「オリジナルパターン」として考えます。
面倒なので信頼区間で検定します。各信頼区間を計算すると、以下のようになります。

下限 CVR 上限
オリジナル 2.53% 3.70% 4.87%
パターン2 1.86% 2.90% 3.94%
パターン3 7.96% 9.80% 11.64%
パターン4 7.14% 8.90% 10.66%
パターン5 8.14% 10.00% 11.86%
パターン6 7.04% 8.80% 10.56%
パターン7 7.87% 9.70% 11.53%
パターン8 3.74% 5.10% 6.46%

オリジナルパターンの「上限」よりも高い「下限」を持つパターンは、オリジナルパターンよりも効果が高いと言えそうです。
ここでは、「パターン3,4,5,6,7」がオリジナルパターンを超えています。
次に、オリジナルパターンを超えた5つのパターンのみで、再度テストを行います。一番CVRが高かった「パターン5」をオリジナルパターンとしましょう。
という風にして、繰り返すことで最適なパターンを見つけ出すことができます。うまくいけば2回で終わりますが、何回も繰り返す可能性もあります。
これでテスト終了です。よかったです。

しかし、これでは終わりません。
まだまだ深い分析を行うことができます。
ちょっと長くなったので、その話は次回にします。

Leave a Reply