探索型調査、検証型調査、そしてWeb分析


データ分析と制約条件

企業がデータ分析に基づいた意思決定を行うにあたって、制約条件となっているものは何か。多くの場合、それは「人」です。データはある、解析するためのツールもある、でもデータを分析することができるアナリストがいない。または、アナリストがいないため何が必要なデータなのかがわからない、エンジニアがいないため必要なデータが取得できない。これが多くの企業の現状だと思います。
では、仮に十分な「人」がいるとします。その場合、次に制約条件となるのは何でしょうか。それは分析の目的やデータの種類によって変わってくるでしょう。「データ」が制約条件となる場合もあれば、「解析ツール/分析インフラ」が制約条件となる場合もあるし、「組織」が制約条件となる場合もあるでしょう。最近は、インフラの整備が進んできていて、分析しなくてはいけないデータが溢れているという状況も多くあります(バズワードである「ビッグデータ」はこのことでしょう)。つまり、場合によってはデータが制約条件となっていない場合もあります。
このように、データが豊富にある状況であれば、データマイニングをすることができるようになります。「今、そこにある膨大なデータの中から意味のある発見をする」、それがデータマイニングです。
データマイニングを含めて、「データ」を分析の出発点とし、仮説を見つけ出す方法を「探索型調査(仮説探索型調査)」と呼びます。

 

仮説探索型調査と仮説検証型調査

仮説探索型調査は非常に魅力的なアプローチ方法です。データを分析していく中で、当初思いもしなかった発見があるかもしれません。企業に蓄積された膨大な量のデータや、そのデータを分析するためのインフラ/ソフトウェアによって、仮説探索型調査であるデータマイニングも特別なことではなく、一般ユーザーでも使いこなせるようになってきました。
当然、定量的なデータ(量的データ)だけではなく、定性的なデータ(質的データ)も探索型調査には使われます。というよりも、質的調査の場合は探索型が中心です。特定のユーザーの行動を観察して、観察した結果から一般的な仮説な導きだす。これが質的調査の通常の方法です。できるだけ事前のバイアスを排除し、「マーケターの想い」ではなく、「ユーザーの考え・行動」を知る。これができるのは探索型調査のみです。
とはいえ、量的データを扱う場合、事前のバイアス(=仮説)をとことん排除していたら、いつまで経っても結果は出て来ません。特にデータマイニングの場合は、「小さな仮説の構築とその検証」の繰り返しです。「この製品とこの製品は関連がありそうなのではないか」、「この変数を用いれば正確な予想ができるのではないか」、「この軸でセグメンテーションをすると効率的なプロモーションができるのではないか」など小さな仮説と検証を積み上げていって分析を行う。これがデータマイニングの方法論です。

一方で、データ分析に対する別のアプローチ方法があります。それが仮説検証型調査です。まずは、「仮説」を作り出し、仮説を検証するためのデータを収集して、分析する。仮説検証型調査とは、このようなアプローチ方法です。アンケート調査を中心とした「レガシーな」調査手法の多くは仮説検証型調査です。まずは仮説を立て、仮説を検証するための「調査設計」を行い、調査設計に基づいてデータを収集し分析を行う。(正しい)アンケート調査はこのような流れで行います(余談ですが、このことがわかっていない人が非常に多く、とりあえずアンケートをしてみて何も見つけられないというパターンが非常に多いです)。
検証型調査は着実に結果を出すことができます。しかし、マーケターの仮説立案能力の幅を超えることはありません。つまり、検証型調査から新たな発見を導き出すことは難しい、と言えます。

 

理論的サンプリングという方法

このような仮説検証型の欠点を克服する方法があります。それは繰り返し繰り返し、仮説検証を実施することです。データマイニングは小さな仮説の構築とその検証と上で書きました。同じことを検証型調査でも実施すれば良いのです。
本題に入る前に、もう少し理論的な話をします。社会学では調査方法論について、多くの議論がなされてきました。社会学における質的調査の方法論の1つである、「グラウンデッド・セオリー・アプローチ(GTA)」について紹介します(一応、リンクは貼っておきますが、Wikipediaの記述は偏見に満ちているのでおすすめしません)。
GTAはグレイザーとストラウスという社会学者が考案した質的調査の方法論です。看護学でよく利用されているようです。GTAの理論的背景や詳細な方法論を紹介しようとすると、一冊の本になってしまうので、ここでは簡潔に分析の流れだけ説明します。

  • テーマを決める(ここでは細かい仮説を立てない)
  • テーマに基づいて、必要と思われる人に対してインタビューを行う
  • インタビューの発言データを細かく分断し、データを「コード化」する
  • データをカテゴリ化・階層化して、データ同士の関連性を見つけ出し、そこから仮説を導き出す
  • 出てきた仮説を基に再度必要なインタビュイーを選定し、インタビューを実施し、データを分析する
  • インタビューとデータ分析の繰り返しを結果が収束するまで行う

ここで問題にしたいのは、最後の2つです。GTAでは、データを分析した後に、分析結果に基づいて再度インタビューを行い分析をします、そして、それを繰り返します。この方法を「理論的サンプリング」と呼びます。バイアスの掛かっていない状態から出発し、データを分析することで道筋をつけ、検証しながら仮説を精緻化していく。この方法を用いることで新たな発見を導き出すことができる、それがGTAの考えです。
しかし、実際のマーケティングリサーチにGTAを応用するときに問題となるのは、この理論的サンプリングの部分です。マーケティングの現場では、結果の正当性と同時に、「スピード」と「コスト」も求められます。GTAは通常、質的調査(インタビュー)で行いますが、まともにやろうとすると少なくとも半年くらいかかります。理論的サンプリングはアンケートにも応用できる考えですが、理論的サンプリングを使って、アンケート調査をしようとすると、いくらお金があっても足りませんし、時間も相当かかります。結果が出る頃には、市場が変わっている可能性すらあります。
マーケティングリサーチの実務において、GTAの考えを応用することは不可能でした。レガシーな調査方法に頼っている限り。

 

そしてWeb分析

ようやく本題です。Webはこれまで不可能だった理論的サンプリングに頼った手法を可能にします。僕はこれがWebにおけるデータ分析で決定的に重要なことだと考えています。
WebではA/Bテストなどの実験的調査を低コストで実施することができます。このような手法を使えば、仮説の検証を素早く、しかも低コストで行うことができます。最初はあまりいい仮説が思いつかなったとしても、仮説を検証している中で、新たな仮説を導き出すことができます。そして、その仮説を検証していき、再度別の仮説を立てる。よく言われるPDCAの実施です。高速なPDCAです。あえて、A/BテストやMVTなどの実験的調査をしなくても、単純に施策実施前後の比較で十分な場合もあります。Webでは調査設計と実施を短期間・低コストで実施することができます。それが大きな特長です。

一方で、アクセスログ関連だけでも膨大なデータが蓄積されていることもまた事実です。さらに広告の配信データや顧客データなどと結びつけようとすると、データは倍増します。この膨大に蓄積されたデータを「マイニング」することもアナリストには求められます。

ここからはあくまでも経験則です。アクセスログを中心とした膨大なデータを後から分析しようとしても求める結果、「つまりコンバージョンを上げるためにはどうすれば良いのか」は中々出て来ません。効率性の観点から見ると、非効率極まりない方法です。そんなことをするくらいであれば、「とりあえず何らかの施策を実施してみる→結果を検証する」という方法を採った方が遥かに効率的に必要な分析/改善ができます。
つまり、Webにおいてはビッグデータのマイニングよりも、「仮説の構築」と「データ取得のデザイン」の方が遥かに重要です。データ分析の制約条件となっているのは、(人ではない場合)データです。正確にいうと、「データの蓄積」ではなく、「データの取得」です。仮に膨大なデータが蓄積されていたとしても、必要なデータが無い場合がほとんどです。膨大なゴミの中から、あるかどうかわからない宝石を見つけ出す作業は不毛です。それよりも、必要なデータを取得するための「デザイン」をした方が効果的・効率的です。

 

Web分析の中心は仮説検証

つまり、何が言いたいのかというと、Web分析の中心的な作業は「仮説検証」であるべきということです。なんとなく収集してみた膨大なデータを分析しても、意味のある結果が出るかどうかわかりません。あまりにも非効率な方法です。それはコンテンツの更新が容易であるというWebの特長を無視した方法です。何らかの施策を実施するのと同時に、施策の効果を検証するために
「いかにしてデータを取得するのか」
というデザインを行う、これこそが最も重要なアナリストのタスクです。
仮説と評価指標を予め持った上で施策を実施することで、効率的に仮説の検証ができ、次の施策に繋げることができます。探索型調査ではワンショットの調査で膨大な工数がかかってしまい、何度も実施することができません。

アトリビューション分析が微妙なのはこの点です。アトリビューションモデリングの多くは探索型調査を前提にしています。後付け後付けで、この広告のビュースルーがどうだこうだ言われても、分析の苦労の割に得るものは少ないです。
もちろん全てのアトリビューション分析を否定しているわけではなく、「探索型」のアトリビューション分析は多くの場合、不要だと言っているだけです。例えば、広告の配信前に、
「バナー広告はビュースルー効果があり、他の刈り取り型広告や自然検索と組み合わせることで、効果が発生する」
という仮説を立てて、必要なデータ取得をデザインし、その効果を検証すれば良いのです。ただデータがあるだけの状態から分析するよりも、遥かに分析工数が少なくて済み、次の施策へ活かすことができます。

もちろん、探索型調査も有効な場合もあります。長い期間、データを貯めるだけ貯めてきて全く分析をしてこなかった、という場合は、一度探索型調査をした方が良いでしょう。リスティング広告や第3社配信広告をしている場合は、特に設定しなくても膨大な量のデータが自動で収集できてしまいます。費用をかけてでも、一度このような膨大なデータを分析してから次の戦略を練った方が結果的に低コストになります。

しかし、通常の場合は、「仮説構築→データ取得デザイン→データ検証→仮説構築→・・・」というサイクルを回していく方がうまくいきます。そして、それができるのがWebの特長です。膨大なデータが蓄積されているのがWebの特長ではなく、データ取得のデザインが自在にできるという点がWebの特長です。

大事なことなので、もう一度言います。探索型調査は時間のムダです。仮説構築→検証を繰り返し、最適な解を見つけていく。これがWeb分析の中心となるべきアプローチ方法です。その中で最も重要なアナリストのタスクはデータ取得のデザインを行うことです。ごりごりとデータマイニングをすることではありません。ゴミからはゴミしか出て来ません。GIGO(garbage in, garbage out)です。

 

ちょっとした補足

仮説→検証をパラレルで数本走らせて、ちょっとした「突然変異」を入れてみる。そうすると、遺伝的アルゴリズムの考え方と一致します。贅沢な方法ですが、一度やってみたい気がしないでもないです。遺伝的アルゴリズム(Genetic Algorithm)、略してGAだし。