【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集

あるサイトのPV数、申込数の分析を行うにあたって確率モデルの適用を考えています。
各ページのPV数・アクション数の確率的な分布の導き方について
以下の考え方で問題ないかご意見いただきたいです。

※当方、15年ぶりに学生時代の統計の教科書を引っ張り出して悪戦苦闘中です。
-------------------------------
総ページ数:a
申込可能なページ数:b ※考慮外ですが、データとして持っています
UU数:c 
総PV数:d ※個別ページ毎のPV数の情報も持っています
総申込数:e ※同上

と置いたとき

ユーザ1人当たりのPV数平均=d/c
ユーザ1人当たりの申込数平均=e/c

【仮定】ユーザの申込行動:申込可能なページを参照した際に一定の確率pで申込を行うベルヌーイ分布に従う
# 実際には一定の確率ではないので、ここも分析対象になるかと思いますが、
# それはまた別の機会に。

http://ja.wikipedia.org/wiki/%E8%B2%A0%E3%81%AE% …
の記法に倣って
サイト閲覧を終了するまでの申込件数r=e/cと置いたときユーザ1人当たりのPV数の分布は負の二項分布に従う
このとき、PV数の期待値E(X)=d/c=e/cp ∴p=e/d
※この確率分布関数をf(x)と記述します。
-------------------------------

このとき、個別ページのPV数の確率分布モデルを適用するにあたり、
ユーザがページ選択する確率:1/a
この試行を全体でd回繰り返すことになるので、なので予想されるPV数の分布は
f(x)*d/aとなる
アクション数も同様の導き方を考えています。

A 回答 (1件)

何をしたいのかよく理解できたわけでないですが。



ページビューはページによって大きな差があり、人による好みの違いも大きいことから、一律にaで割り算する「ユーザがページ選択する確率:1/a」「PV数の分布はf(x)*d/aとなる」の部分は、無理があるような気がします。

そもそも、ページビューを既定する要因は様々あると考えられ、その大部分は未知の可能性があることから、演繹的にモデルを導くのは難しいのではないでしょうか。

PV数の確率分布をモデル化したいなら、実際のPV数の分布をグラフ化してみて、似た形状の確率分布にあてはめる方法があります。案外、正規分布やポアソン分布で事足りる場合があります。

お考えのf(x)*d/aも含めて、複数の候補のどれを選ぶかということなら、それぞれを最尤法であてはめてみて、尤度が最も大きいモデル(あるいはAICが最小のモデル)を選べば良いと思います。

選ばれたモデルについて、どうしてそういう関数形になったのかが気になるならば、後付で理屈を考えればよろしいかと。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

現在の分布形状を見ると、対数正規Orべき乗っぽい形状になっているので、
うまくロジックとして説明できそうな上記モデルをベースとして
母集団分布を仮置きしたい、というのが意図するところになります。

この後、各ページで持っている属性をパラメータとして、ページ側の属性だけで
何らかの傾向を見出して行きたいと思っています。

正規分布・ポアソン分布は分散が大きいのでちょっと当てはめるのが難しいです。
(対数正規だと中間だといい感じにQQプロットは乗るんですが、両方の裾で
外れてしまい、検定も通らないのです…)

お礼日時:2013/06/17 10:12

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!