統計学についての質問

Question

おはようございます。
自分は大学4年生で卒業論文に取り組んでいます。
事故とぎりぎり事故を回避した事例を比較して、それらの間の閾値(速度や衝突位置までの距離など)を求めることがテーマで、多くのデータを扱うため統計学が有用になるのではないかと思いました。
しかし周りに聞くことができる人がおらず質問サイトで聞いた次第です。
皆さんならばどのようなアプローチをしますか？
例えば事故において重要な因子はどのようにして求めますか？
今のところ説明変数(速度、距離など）から事故の確率を予測するロジステック回帰分析で回帰係数で比較することを考えています。
稚拙な文章を読んでいただきありがとうございます。

kamiyasiro · Accepted Answer

企業で統計を推進する立場の者です。

多数の要因項目を取り上げ、それらで構成される多次元の空間で、０１のラベルがあらかじめ付与してある正例と負例を分類する操作を、分類あるいは識別といいます。
その際に用いる統計手法を分類器・識別器と言い、大別すると線形識別器と非線形識別器があります。

線形識別器は、多次元空間に超平面を差し込む形で両者を識別します。ロジスティック回帰もこれに含まれます。
メリットは、負荷量（超平面の法線ベクトル∝標準偏回帰係数）から識別要因が特定できることです。デメリットは誤判定率が高いことです。

非線形識別器は、多次元空間にグネグネの曲面を差し込んで識別する方法で、サポート・ベクター・マシーン（SVM），k-NN，ランダム・フォレストなど多数あります。
曲面は法線ベクトルが定まらない為、要因解析はできません。ただ、ランダム・フォレストは重要度が出てきます。
誤判定率が低いので予測に適します。

あなたのように、要因を特定したいのであれば、ロジスティック回帰かランダム・フォレストを使えば良いでしょう。両方やって結果を比較しても面白いと思います。また、事故確率ですが、非線形識別器でも、グレーゾーンの事故確率が計算できます。識別境界はｙ＝0.5の曲面ですが、0～1までの等高線を描くことができるからです。分類器回帰とか言います。

ただ、説明変数のうち運転者の年齢などは計量値扱いできますが、車種（スポーツカー，SUVなど）は、ワン・ホット・エンコーディングによって、新たな項を立てますので、そこで線形制約が入ります。また、交互作用も考慮したいですが項数が膨大化します。そのため、正則化したロジスティック回帰を用いなければなりません。Rでは、glmnet()という関数を使うことになります。SVMは線形制約があっても大丈夫です。

周りにサポートしてくれる人がいないそうで・・・。頑張って下さい。

統計学についての質問

企業で統計を推進する立場の者です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング