アクセス解析を難しくしているもの
アクセス解析は簡単?
アクセス解析は難しいと思われがちですが、現実的に行っているデータ処理は、さほど難しいことをしていません。というよりも、データ分析でよく用いられている統計的手法は一切使用していないことがほとんどです(それもどうかと思いますが)。
普通のアクセス解析ツールでは、データマイニング・多変量解析的な手法を提供しているツールはほとんどありません。決定木やニューラルネットワークはもちろん、K-meansすら提供していません。それどころか、中央値や標準偏差などのごく一般的な統計指標もほとんど提供されていません。アクセス解析ツールで行っている演算は、足し算/引き算、平均値くらいしかありません。
では、アクセス解析は簡単か?というと、そうとも言い切れません。
何がアクセス解析を難しくしているのか
何がアクセス解析を難しくしているのでしょうか?以下の3つの要因があると考えています。
1.余計なデータが多すぎる
DWHを構築する場合は、必要なデータを取捨選択した後、レポート化するのが普通です。データマイニングをするときも、一度データクレンジングをして、必要なデータのみ引っ張ってくることが普通です。
しかし、多くのアクセス解析ツールは取れるデータは、とりあえず集めておけ!というスタンスで作られています。これは、アクセス解析をする目的が多岐に渡ることも影響しています。
もともとアクセス解析は、エラーの検出や不正アクセスの検出など、システムの維持・改善の目的で使用されてきました。徐々にマーケティングにも活用することができることがわかり、アクセス解析ツールの進展もあって、今の形になっています。
また、サイト制作の技術的な側面でもアクセス解析は有効です。例えば、利用しているブラウザ・OSの種類/バージョン、画面の解像度、ブラウザの実際の幅などサイトを制作する上で非常に参考になります。
ただし、マーケティング的な視点で考えると、上記の技術的なデータはほとんど役に立ちません(全くではないところが、また微妙なんですが・・・)。マーケティング的には役に立たないデータが大量にあって、どれを見ればいいのかわからなくなってしまっているというところが難しくさせている要因の一つです。
2.どのデータを見ればいいのかわからない
アクセス解析において、どのデータを見ればいいのかを考えることは非常に難しいです。なぜなら、各サイトによって、サイトの性格が違いすぎるからです。同じデータを同じ基準で見ればいいというサイトは存在しません。
ECサイト、コーポレートサイト、ブログ、どれも見るべきデータは異なります。そして、取り扱っている製品、ユーザー層、サイトの構造によっても、見るべきデータ、データの解釈は異なってきます。
たとえ、競合企業の同じようなコーポレートサイトだとしても、KPIとするべき指標が変わってくる場合も数多くあります。
アクセス解析には、これだけ見ておけば大丈夫!という基本となる指標は存在しません。サイトの性格(EC、コーポレートサイトなど)ごとに無理やり、共通指標を決めたところで、どう解釈すればいいのかはサイトによって大きく異なります。
例えば、直帰率(Avinash Kaushikが一番お気に入りの指標!)が20%だという結果から、何が言えるでしょうか?20%という数値だけで、それが良いのか悪いのかは全く判断できません。過去のデータと比べて初めて、「良くなった」、「悪くなった」と言うことができます。
共通指標・共通基準がない(作れない)ことがアクセス解析を難しくしている要因の一つです。
3.基本指標が複雑
アクセス解析で基本となる「指標」が複数あることも事態を複雑にしています。
よく用いられる指標(メジャー)は以下の通りです。
・PV
・インスタンス(件数、インプレッション)
・金額
・セッション(ビジット、訪問回数)
・ユニークユーザー(UU、ビジター、訪問者数)
・滞在時間
上の3つ(PV、インスタンス、金額)は自由に合計・分解ができます。
「全ページの合計PV」と「サイト全体のPV」は一致します。
当然、「全カテゴリの売上金額」と「サイト全体の売上金額」は一致します。
(もちろん、カテゴリ間に重複などが無い場合のみです)
しかし、セッションとUUは合計することができない指標です。
「全ページのセッション数の合計」と「サイト全体のセッション数」は一致しません。
当然、UUも同じです(なぜだかわからない人はセッション、UUの定義を確認しましょう)。
しかも、セッション、UUは解析ツールによって、定義が微妙に異なっています。
そして、滞在時間も問題山積みの指標です(詳細はいずれ)。
基本となる指標が数多くある上に、指標によって、できそうでできなかったり、ツールによって定義や名前が違ったりしていることが普通になってしまっていることがアクセス解析を難しくしています。