ビッグデータについて

Question

ビッグデータを元に何かを調べたいと思ったら

どうやって調べれば良いのでしょうか？

特別な調べ方があるのでしょうか？

教えてください。宜しくお願いします。

kamiyasiro · Accepted Answer

私は、企業で統計的手法を推進している立場の者です。

ビッグデータを使って、やりたいことは分類器作りと言っても過言ではありません。
Cクラス分類器というのを作り、クエリ（問合せ要求）がどのクラスに属するかを類推し、クーポンを発行したり、お薦めを表示したりします。あるいは、スパムメールを除去します。

どうやって調べるかですが、データ・サイエンスという領域に分類される統計手法を使います。主に機械学習を中心とした手法です。

ビッグデータは高次元・大標本です。
高次元のために「次元の呪い」が深刻になります。おおよそ200次元（データ列数です）にもなるとデータの存在範囲の平均付近にはデータは皆無で平均からある距離だけ離れた超球上にデータが集中します。これを球面集中化といいます。このとき、データ間の距離は著しく離れます。これをスパース化といいます。これまでの多変量解析が立脚してきた漸近近似性が破綻しています。
大標本になると、検定力が増し、どんな仮説も有意になります。毎週金曜日には、おむつとビールが一緒に売れるとか、検索窓を上下に6ピクセル広げたら0.64％検索数が増え、売り上げが何億か増えたというような、都市伝説のような話が生まれます。

そのために、古典論が使用できず、データ・ドリブンな手法が必要になります。データ・サイエンスの定義はあいまいですが、データ・ドリブンもあいまいです。私たち理系の人間とは違う解釈をしている方が多いですが、理系の解釈は次のようなものです。

モデルが前提としてあり、観測されるデータがそのモデルにフィットしているかどうかを検定するのは古典論ですが、データ・ドリブンは逆に、今あるデータを訓練データとしてに、それにモデルをフィットさせる手法です。
データが大きいと、いくらでも精緻なモデルが使えます。精緻にしすぎると、訓練データでは良く当てはまるのですが検証データでは誤判定が出るようになります。これを汎化誤差といいます。そのため、どこかでブレーキが必要になります。
ブレーキの方法として、適応的な方法と検証的な方法があります。前者は情報量基準を、後者はクロスバリデーションを使います。

データ・ドリブンな方法には、大きくふたつのアプローチがあります。それは識別モデル・アプローチ，生成モデル・アプローチです。
前者はカーネル・トリックを、後者はベイズを使います。

これくらいを入門的な知識として、専門書を読んで下さい。

ビッグデータについて

私は、企業で統計的手法を推進している立場の者です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング