交通事故が経年的に増減する理由を説明するために、時系列分析を用いて行おうと
思っています。しかし、わたしは統計に関してはシロートに近く、どのモデルを用いればよいのかわかりません。そこで、どのような式を使えばいいのか、またはどんな勉強をすれば時系列分析がわかるのか、どんな本をみればシロートにも分かるのかヒントをください。
使用するデータは人口、交通量、道路延長、自動車保有率、違反率(取締り件数)などです。よろしくおねがいします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

こんばんは



MS-EXCELはお持ちではないですか?
お持ちであれば、分析ツールで相関関係を自動分析して
それぞれのカテゴリー値を返してくれますが!

(分析ツール:MS-EXCELの標準付属アドインツールです)

お持ちで無いようでしたら、意味無しレスですね!(スミマセン)
    • good
    • 0

初めから「時系列分析」と決めてかからずに、交通事故の件数、人口、交通量、道路延長、自動車保有率、違反率(取締り件数)と並んで、年というデータもある、というふうに捉えるのが良いかと思います。



 多変量解析、特に因子分析、その中でも主成分分析を適用してみるべきであろうと思います。
 なお、多変量解析はデータ項目相互の関連の強さを調べるもので、何が何の原因である、というような因果関係は示していない。この点、ご注意下さい。取り締まり件数が増えたのは、交通量が増えたせいではなく、道路事情が変化したため、あるいは警察官が余っているためかも知れない。勝手に因果関係を決めて掛かってはいけません。

 はたして項目Xと項目Yの間に相関があるのかどうか、また相関が一次式で近似できるようなものかどうかをチェックするために、まずは散布図を描いてみるべきでしょう。たとえば人口を横軸に、交通事故の件数を縦軸に、という風にして。(散布図にカオスが現れるほど複雑な現象ではなさそうです。)
 ひょっとすると自動車保有率ではなく、その2乗に比例して交通事故が増えるらしい、ということだってあり得ます。そういう時には、「自動車保有率の2乗」というデータ項目を追加すればよいのです。
 相関の有無のチェックにはカイ二乗検定など検定理論を使います。

次に、因果関係の解析について。
 ここでようやく、時系列らしい話になってくるはずなんですが、その前に。原因が結果に先立って統計に現れるかどうか、これは怪しいですね。年単位の統計なんかだと、時間差が出てくれるとはちょっと思えません。交通事故の多くは車を買ってすぐに起こるような気がしますし、それは慣れていない人が運転するからだろうと思われます。だとすれば、同じ年のうちに原因と結果が入ってしまうことがほとんどでしょう。ですから、原因と結果の時間差がデータには現れにくい。時系列で因果関係を導くのは難しいかもしれません。

 もしそのようなら時系列解析はあきらめて、むしろ主観的に因果関係のモデル(causal network)を作って、そのパラメータをデータに合うように決められるか、というような研究をするしかないと思います。causal networkはデータ項目の他にも(測定されていない)項目を想定し、項目間に因果関係 A→B (AはBの原因)を描いて、網のような図を作ります。そのそれぞれの" → "はAが増えるとBがどれだけ増えるかを、一次式(aA+b)で表すことにします(線形因果関係)。a,bは未知の係数ですね。" → "ごとに2つづつ未知の係数ができることになります。
このネットワークを実際のデータに当て嵌めて、未知の係数の値を出来るだけうまく決めよう、というわけです。
 一次式を幾ら並べても一次式だろうと思ったらそうでもなくて、非線形の連立方程式になります。従って、例えば非線形最小二乗法を使って未知の係数の値を決める必要があります。

 時系列に時間差が出ているようなら、相互相関を計算すれば時間差を推定することが出来ます。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q主成分分析でのばらつき

主成分分析において、因子のばらつきが多いところを見つけるには出力結果の何を見ればよいのでしょうか?

例えば、月を変数として、ある商品の価格を全国の都道府県ごとに主成分分析すると、
結果として、固有値、寄与率、固有ベクトル(各月に対して)がでますよね?ここで、全国の都道府県間の価格のばらつきが多い月は何月か見るためには、主成分分析の結果のどこに着目して解釈すればよいのでしょうか?

よろしくお願いします。

Aベストアンサー

そういう目的ならそもそも主成分分析をする必要がありません。
月ごとに都道府県別の価格の分散をとればよいです。

QLeave-one-outを用いて重回帰分析やPLS分析の結果を検証したいと考えております。

Leave-one-outを用いて重回帰分析やPLS分析の結果を検証したいと考えております。
SPSSやJUMPといった一般的な統計ソフトでLeave-one-out法を使用できるものをご教示下さい。

Aベストアンサー

Rというフリーの統計ソフトなら可能です。
R Cross Validationで検索してみてください。

例えばbootstrapパッケージのcrossval関数など
他にもいろいろあります。

Q統計、主成分分析について

 すいません。
 勉強中の身なのですが、まだあまり理解度は低いと思われます。

 統計学の主成分分析なのですが、
 分析内容は
 「グループ毎のデータを用意し、そのデータからグループ毎の違いを導き出すことができるか。つまりデータ→グループ分けをして元のグループのようになるか。」
 で正しいでしょうか?
 
 例えば、プロ野球選手を
 身長、体重、握力、50m走タイム、遠投
 などのデータを入れ、
 を統計ソフトにかけ、
 球団別にうまく分かれるか。

 というのは主成分分析ですよね…?

 また、上のような主成分分析を試行するのに
 考えられる例はどのようなものがあるでしょうか?
 データもあれば嬉しいのですが…。

Aベストアンサー

> 球団別にうまく分かれるか。

というのは、どちらかというと判別分析やクラスター分析のほうに近いのではないでしょうかね。

重回帰分析は理解できていますか?重回帰分析の場合は目的変数となる変数が「観測変数」であるのに対して、主成分分析では「潜在変数」であるわけです。つまり、架空の(分析者自身が仮定する)変数が目的変数であるというだけで、結果の解釈の仕方は重回帰分析とほぼ同じですね。

> グループ毎のデータを用意し、そのデータからグループ毎の違いを導き出すことができるか。つまりデータ→グループ分けをして元のグループのようになるか。

よく分かりません(^_^;)

> 主成分分析を試行するのに考えられる例はどのようなものがあるでしょうか?

データとその解析例が載っている参考書はたくさんあります。「多変量解析」の名の付く本をいくつか読んでみては(すでに読んでいるのでしょうが、本にもその人との相性があるのでいくつか違うものを読んでみた方がよいということです)?

Q増減率について。

元の値から20%増減した場合、仕事上特殊な対応することになりました。

元の値×1.2
元の値×0.8

で20%増減がわかると、引き継ぎの方に言われたのですが…
算数が苦手なものでわかりません。

小学生にもわかるような説明を、どなたかしていただけないでしょうか??

算数は本当に苦手で、助けてください!

Aベストアンサー

どのような数値の増減か分かりませんので、とりあえず単位を円として考えましょう。

まず、20%ですが、%は、1%が1/100(=0.01)ですので、20%=20/100=0.2になります。

ここで元の値を100円として考えます。
すると、元の値の20%は、100円×0.2=20円になります。

元の値から20%増加した場合は、100円+20円=120円
元の値から20%減少した場合は、100円-20円=80円 となります。

これは、100円×1.2=120円 100円×0.8=80円と同じです。
つまり、20%の増加は「元の値×1.2」、20%の減少は、「元の値×0.8」になるわけです。

このことをもう少し詳しく見てみましょう。

100円×1.2=100円×(1+0.2)=100円+20円   0.2は、20%=20/100です。
100円×0.8=100円×(1-0.2)=100円-20円

となります。

最後に、一般化してみましょう(中学生の数学ですが)。

a%増加 : 元の値×(1 + a/100)
《例》 20%なら、a/100は、20/100=0.2で、(1 + a/100)は、1.2になります。

a%減少 : 元の値×(1 - a/100)
《例》 20%なら、a/100は、20/100=0.2で、(1 - a/100)は、0.8になります。

どのような数値の増減か分かりませんので、とりあえず単位を円として考えましょう。

まず、20%ですが、%は、1%が1/100(=0.01)ですので、20%=20/100=0.2になります。

ここで元の値を100円として考えます。
すると、元の値の20%は、100円×0.2=20円になります。

元の値から20%増加した場合は、100円+20円=120円
元の値から20%減少した場合は、100円-20円=80円 となります。

これは、100円×1.2=120円 100円×0.8=80円と同じです。
つまり、20%の増加は「元の値×1.2」、20%の減少は、「元の...続きを読む

Q主成分分析について

主成分分析について

現在、主成分分析の計算方法を勉強をしているのですが、主成分得点の求め方がわかりません。

例をあげて説明させていただくと、
x1x2x3
8 9 4
2 5 7
8 5 6
3 5 4
7 4 9
4 3 4
3 6 8
6 8 2
5 4 5
6 7 6
このようなデータを分析するとして、各変数の相関係数(X1X2 X2X3 X1X3)の値はわかりますし、計算方法もわかります。
またここから固有値もわかります。
しかしここからどうやって、主成分得点を求めればよいかわかりません。
どのように計算するのですか?よろしければご回答下さい。

Aベストアンサー

主成分得点には、分散共分散行列主成分分析と相関行列主成分分析の2種類がありますが、相関行列主成分分析の主成分得点でよろしいでしょうか?

まず、固有ベクトルを求めます。
仮に、以下のようになったとします。(A,B,C・・・は主成分の数値)

・・主成分1 主成分2
X1 A     D
X2 B     E
X3 C     F

これより、相関行列主成分分析の関係式は、

Z1=A・X1+B・X2+C・X3
Z2=D・X1+E・X2+F・X3

この式に、X1,X2、X3の値を入れて計算します。
このZ1、Z2が主成分得点です。

ちなみに、分散共分散行列主成分分析の場合は、ここまで同じで、
Z1,Z2の平均を求めて、Z1およびZ2からその平均を引いたものになります。

QExcel 分析ツールの回帰分析の分散分析表に関して

「有意F」と「P-値」が意味するところを教えてください。

Aベストアンサー

直感的にイメージしやすいように、ご説明申しあげます。
ので、統計学的な厳密さから言うと、
私の説明は間違いです。
(正しく理解したい場合は、他の方の回答を信頼してください)

Excel分析ツール回帰分析の場合、
「有意F」はF検定に基づくP値、
「P-値」はt検定に基づくP値で、どちらも確率を示しています。

まず「有意F」は、
「この回帰モデルは全体として全く意味がない」と断言できる確率です。
ですから、この値が小さければ小さいほど回帰モデルとしてはよく出来ている
と思ってください。

つぎに「P-値」は、
「この説明変数には応答変数を説明する力がない」と断言できる確率です。
ですから、この値が小さければ小さいほど、説明変数としては力がある
と思ってください。
(切片のP-値は意味のないものなので無視しましょう)

分析ツールの回帰分析は、単回帰分析(説明変数が1つ)に限られていますから、
「有意F」と「P-値」は必ず同じ値になります。(実際に数値で確認してみてください)

なお補足になりますが、
Excel分析ツール回帰分析で「P-値」が表示されている部分は、分散分析表ではありません。
「分散分析表」にあたる部分は回帰、残差、合計で示された3行だけです。

直感的にイメージしやすいように、ご説明申しあげます。
ので、統計学的な厳密さから言うと、
私の説明は間違いです。
(正しく理解したい場合は、他の方の回答を信頼してください)

Excel分析ツール回帰分析の場合、
「有意F」はF検定に基づくP値、
「P-値」はt検定に基づくP値で、どちらも確率を示しています。

まず「有意F」は、
「この回帰モデルは全体として全く意味がない」と断言できる確率です。
ですから、この値が小さければ小さいほど回帰モデルとしてはよく出来ている
と思ってください...続きを読む

Q主成分分析について

街頭アンケートを行い統計学的に分析しようと思い、主成分分析を利用しようと考えています。しかし、少々難しいく、困っています。「主成分の決め方」みたいなコツを教えてくれると幸いです。

Aベストアンサー

主成分分析は、単に分散の大きな軸を取り出して、なるべくデータ間の差異を際立たせるようにするのが目的です。その際に、元のデータからの情報損失を少なくするようにしないと、元のデータを再現していないということになります。その情報損失の度合いを見るのが寄与率です。
No.2の方が回答されているように、大体80%あれば元の情報を損失なく表現できていると考えてよいでしょう。

その際の注意点は、全ての軸が同じ方向を向いているような場合は、第一主成分に意味がない可能性があります。これは、全体の大きさに関する軸だったりしてという可能性もあります。その場合は正規化等を行うことで除去することが出来ます。

また、主成分分析では、分散を大きくするように主成分を決めているので、当然外れ値には敏感です。マッピングをして明らかに外れている値があるようなら、それに引っ張られているだけなので、その点を除いてから再度主成分分析をするなどしたほうがよいです。


最終的な軸の解釈が出来ることも重要になりますが、この辺りは主観的な問題もはらむので、色々な角度からの考察が必要になります。

元のデータのデータ間の差異を際立たせることによりデータを見るという観点からは、実際のマッピングをみて、そこにあるグループ構造(クラスタ構造)が見られる稼動かで判断することも重要です。クラスタ構造が見られるなら、そのグループの特性を別に分析するなどです。

主成分分析は、単に分散の大きな軸を取り出して、なるべくデータ間の差異を際立たせるようにするのが目的です。その際に、元のデータからの情報損失を少なくするようにしないと、元のデータを再現していないということになります。その情報損失の度合いを見るのが寄与率です。
No.2の方が回答されているように、大体80%あれば元の情報を損失なく表現できていると考えてよいでしょう。

その際の注意点は、全ての軸が同じ方向を向いているような場合は、第一主成分に意味がない可能性があります。これは、全体の...続きを読む

Q順序データを用いたロジスティック回帰分析

ロジスティック回帰分析についてお聞きしたいことがあります。
ロジスティック回帰分析の独立変数として順序データを用いる場合は、3つ以上の値をとる名義データを用いる時のように、ダミー変数に変換する必要があるのでしょうか?
ご存知の方がおられましたら、教えていただけないでしょうか。

Aベストアンサー

これ(http://www.ibaraki-kodomo.com/toukei/logis.html)の7)ダミー変数についての項を見るとそのように書いてありますね。

Q「主成分分析の結果から一次元構造が確認される」とは分かりやすく言うとど

「主成分分析の結果から一次元構造が確認される」とは分かりやすく言うとどういう意味なんでしょうか?

今扱っている論文に「主成分分析の結果から一次元構造が確認される」という言葉が何度か出てきます。
何となく研究の正当性を主張するのに使っているというのは分かるのですが、詳しい意味がよく分かりません。
結局一次元構造とは何なのでしょうか?
分かる方、教えてください><!

Aベストアンサー

私は数学を普段から使う専門家です。全体の文章を読まずにこれだけの文章では情報が少な過ぎて、正確な意味は分かりません。しかしながら、これだけの文章で想像出来ることは、以下の通りです。

普通、ある量(変数とかパラメーターと呼ばれる)を横軸に取って変化させるとそれに対してある量が変化するとき、その値を縦軸に取った平面内で、その図が大体一本の直線や曲線の上に乗っている場合に、それは一次元的構造を持つと言います。ところが、直線や曲線ではなく、平面的にぼーっと広がって分布してしまう場合、それは最早一次元的ではなく、2次元以上の多次元的構造を持つと言います。多分、主成分をそのようにある変数なりパラメーターを変えて図示してみたら、直線ないし曲線上に乗っているように分布していたということではないでしょうか。


具体的には例えば、ある集団の人間の身長を年齢を変数と考えて図示してみると、もし身長のその集団での平均値を画くと、年齢を大きくして行くと最初は右上がりに直線状に増えて行きますがそのうち成長が止まって平になって行く。従って全体の図は上に凸向きな一本の曲線を画くはずです。従って、この場合この図は一次元的構造を持っています。ところが、身長の平均値ではなくて、各々の人の身長をその集団に対して一枚の図の中に画くと、与えられた年齢で皆の身長は平均値の回りにばらつきがあるので、一本の曲線上には乗らず、その平均値の回りにぼーっと広がった図になります。この時には、その図は一次元的構造を持っていないと言います。

この説明は、果たしてお役に立っているでしょうか。

私は数学を普段から使う専門家です。全体の文章を読まずにこれだけの文章では情報が少な過ぎて、正確な意味は分かりません。しかしながら、これだけの文章で想像出来ることは、以下の通りです。

普通、ある量(変数とかパラメーターと呼ばれる)を横軸に取って変化させるとそれに対してある量が変化するとき、その値を縦軸に取った平面内で、その図が大体一本の直線や曲線の上に乗っている場合に、それは一次元的構造を持つと言います。ところが、直線や曲線ではなく、平面的にぼーっと広がって分布してしまう場...続きを読む

Q自然対数を用いた重回帰分析

ネットでたまたま見つけた郵政省(当時)の為替メカニズムの論文を理解したいのですが・・・

論文では、重回帰分析(?)の結果、為替決定式を以下のとおりとしていました。

logS=α0+α1log(N/N*)+α2log(Y/Y*)+α3(i-i*)・・・式1

logは自然対数
S:為替レート(1ドルS円表示)
α0~α3:係数
M:日本のマネーサプライ(M1)
M*:アメリカのマネーサプライ(M1)
Y:日本のGDP
Y*:アメリカのGDP
i:日本の短期金利
i*:アメリカの短期金利

logS=20.33+0.59log(N/N*)-0.65log(Y/Y*)+0.03(i-i*)・・・式2

でした。

これにつきまして、

1.logS=の式を、S=の式にするにはどうしたら良いのでしょうか?
自分なりに解いたのは次式です。(おそらく間違っていると思いますが)

  S=e^20.33×(M/M*)^0.59÷(Y/Y*)^0.65×e^(0.03(i-i*))・・・式3

2.従属変数(?)が対数表示されている理由は、縦軸を対数表示するため
  でしょうか?それとも、回帰分析する際に便利だからでしょうか?
  また、金利は自然対数を取らないのですね?

3.自分も式1から、エクセルのソルバ等を用いて計算値と実績値との差の自乗の合計
  が最小となる係数を求めてみたいのですが、エクセルのLn関数を用いて、式1から
  回帰式を求めることはできますか?

私は文系出身のため対数というものを初めて知りました。とても不思議な世界があるのだなあ
と興味を持っていろいろ調べたり、書籍にあたったりしましたが、もともと数学は苦手で基礎
ができていないものですから、いまいち式を解くことができません。
何か良い書籍・ウェブサイトをご紹介願えないでしょうか?
(ちなみに、数学はミクロ経済学のための偏微分ができる程度です。)

ネットでたまたま見つけた郵政省(当時)の為替メカニズムの論文を理解したいのですが・・・

論文では、重回帰分析(?)の結果、為替決定式を以下のとおりとしていました。

logS=α0+α1log(N/N*)+α2log(Y/Y*)+α3(i-i*)・・・式1

logは自然対数
S:為替レート(1ドルS円表示)
α0~α3:係数
M:日本のマネーサプライ(M1)
M*:アメリカのマネーサプライ(M1)
Y:日本のGDP
Y*:アメリカのGDP
i:日本の短期金利
i*:アメリカの短期金利

logS=20.33+0.59log(N/N*)-0.65log(Y/Y*)+0.03(i-i*)・・・式2

...続きを読む

Aベストアンサー

(1について)
正しいです。

(2について)
従属変数(及び説明変数)を対数にするのは、単に決定係数やt値等で見たフィットがよかったためでしょう。敢えて理屈をつければ、式3で分かるように、Sが必ず0より大きくなることが保証されるようにした、という見方もできます。

金利に自然対数を付けない理由は、分析当事者の郵政省に聞くしかないでしょう。ただ、i-i*が負の値をとりえることから、対数をとるのを避けたのだと推測します。また、ほかの変数と同じようにlog(i/i*)とするのも、i*=0(アメリカのゼロ金利)の可能性もあるので、避けたのだと推測します。

(3について)
Ln関数を使って回帰式を求めるのは、もちろんできます。
ソルバを使って推計することもできそうですが、お薦めできません。理由は、次の2つです。

(1) 計算が非効率なこと
(2) t値等の、推計の精度を判断する指標が出力されないこと

エクセルを使うなら、「分析ツール」の中の「回帰分析」を使うのが良いと思います。また、ワークシート関数の「LINEST」を使ってもソルバより計算は速いです(ただし、t値等は出力されない)。

(参考文献等)

式3を自力で出せたのなら、最低限の数学的素養はあると自信を持っていいのではないですか。むしろ、計量経済学の本を読まれるほうがよさそうに思います。

(1について)
正しいです。

(2について)
従属変数(及び説明変数)を対数にするのは、単に決定係数やt値等で見たフィットがよかったためでしょう。敢えて理屈をつければ、式3で分かるように、Sが必ず0より大きくなることが保証されるようにした、という見方もできます。

金利に自然対数を付けない理由は、分析当事者の郵政省に聞くしかないでしょう。ただ、i-i*が負の値をとりえることから、対数をとるのを避けたのだと推測します。また、ほかの変数と同じようにlog(i/i*)とするのも、i*=0(アメリカのゼ...続きを読む


人気Q&Aランキング

おすすめ情報