プロが教えるわが家の防犯対策術!

文系人間ですが、必死の思いでデータの分析をしてます。
スポーツのタイムの傾向を調べており、距離や気温などからタイムが予測できないかと思っております。いくつかの変数となる値を引っ張り出してそれぞれタイムとの相関関係がある程度あることは解りましたが、その他に天候にもタイムが左右されることに気づきました。
質的データを分析するには数量化理論(1)類での分析がよいと本で知りましたが、通常の数値からの分析である重回帰分析とどのように組み合わせて分析すればよいのでしょう?天気は「晴」「雨」「曇」「雪」「小雪」など5つ程度に分けて考えたいと思います。その他にも質的データとなるアイテムが考えられます。
元が文系人間で数学はとても苦手です。分析もexcelの分析ツールで分析しています。
どなたか良い解法の糸口をお教えください。

A 回答 (3件)

多変量解析は、とりあえず数字を入れると結果が出てしまうので、計算過程が分かる必要はないものの、分析方法の概要が分からないで使うのは、正直なところあまりお勧めしません。


数量化I類と重回帰分析は、考え方としては似ていますが、説明変数が連続変数でなければ重回帰は使えません。そのあたりを理解していないと、結果の解釈も心配ではあります。

問題設定からすると、タイムが被説明変数で、説明変数の中に天気という5カテゴリーの離散変数があるパターンですから、天気を含む変数セットで予測式を立てる場合は、必然的にI類しか使えないことになります。
(離散変数でも順序があるものについては、無理やり1~5のような数字をつけて重回帰を使うケースがありますが、それは厳密には間違いです)

「どのように組み合わせて」の意味がもうひとつ良くわからないのですが、天気という変数(およびそれ以外の離散変数)がI類を使った結果それほどの説明力が無いということがはっきりするのであれば、その後連続変数のみで重回帰を使ってみるという方式でいいのではないでしょうか。

この回答への補足

tabaさん、早速のご回答ありがとうございます。

まるきりの無知でお恥ずかしいのですが、「連続変数」の意味がわからないのですが・・・。

天気という変数で解析するにはダミー変数として「0」あるいは「1」で天気の種別を区別して数量化I類で分析するのだと考えていますがこれで正しいでしょうか?
そしてexcelの回帰分析を行っているのですが、その他の距離や気温といった数値類の変数と一緒に回帰分析にかけると計算結果がエラーで出てしまいます。
かといって、天気やその他の(多分、離散変数とおっしゃるものの類だと思うのですが、数値を持っていない変数)変数だけでタイムとの関係を見ることは、距離によってタイムが大幅に左右されるので、あまり意味がなさそうです。

「どのように組み合わせて・・・」と言ったのは、例えば重回帰で数値を持っている変数で予測式を出し、それにI類で出した式をなんとか組み合わせることはできないのだろうか・・・などと素人考えで出た言葉です。

そもそも数学が苦手、中学生(1-2年生)程度の知識しか無いので、本を読んでもΣの文字が出てくると既に理解不能のため、ついexcelの機能に頼っています。
こんな無知な私に、是非もう一度お答えをお願いいたします。
よろしくお願いいたします。

補足日時:2001/08/22 09:26
    • good
    • 0

何のために分析をされるのか分かりませんが、例えば大学などの論文や、ビジネス上の判断材料にしようとするのであれば、専門家に相談することをお勧めします。

失礼な言い方で申し訳ないのですが、補足欄に書かれているコメントを読む限り、正しい分析をすることは難しいと思います。
多変量解析は、手法の適用も大切ですが、入力する変数の取捨選択(試行錯誤)や、結果的に出てきたモデルの誤差などを読む力が無いと、使えるとは言えません。「タイムに影響するのは、1に○○、2に△△、…」と書いたところで、ちゃんとプロセスを見る力がある人がデータを見れば、穴がいくらでも見つかるものです。

連続変数(←→離散変数)というのは、量的変数(←→質的変数)と同じで、身長や体重のように連続する変数です。

>天気やその他の変数だけでタイムとの関係を見ることは、距離によってタイムが大幅に左右されるので、あまり意味がなさそうです。

よく分からないのですが、距離が長くなればタイムが伸びるのは当然です。もし、距離「以外」の要素だけの影響を解析したいというのであれば、同じ距離のデータだけを分析するか、距離の影響を除くような加工(例えば100mあたりタイムとか、標準タイムからのプラスマイナスとか)をするとかしないと駄目ですよね。しなければ「距離」が最も大きな要因になるのは当たり前で、ならなければその分析は間違いでしょう。普通は距離が一番大きな要因であることは自明で、2番目の要因が何かを探るのではないですか?

>例えば重回帰で数値を持っている変数で予測式を出し、それにI類で出した式をなんとか組み合わせることはできないのだろうか

これはできません。多変量解析というのは、そもそも2つ以上の変数(=多変量)が、どのように1つの被説明変数に影響を与えるかという構造を、一度に分析するためにあるのです。Xという被説明変数をA,B,C…という説明変数で説明しようとするとき、問題なのはAとB、AとC…などの説明変数内の相互に相関が存在してしまうということです。これを加味(というか排除)しつつ、Xに対するA,B,Cそれぞれの「単独の」影響力を測定するために、多変量解析の手法が存在するのです。

↑もしこの文章で言っていることが初耳なら、悪いことは言いませんから書籍等で勉強することをお勧めします。入門書としては、少し古いですが、以下の本がいいかもしれません。
★創造の方法学(講談社現代新書 553)
高根 正昭著
    • good
    • 0
この回答へのお礼

度々のご回答ありがとうございました。

スキーレースでこの人であれば順当にいけばこのコースでどのくらいのタイムで滑れていただろうかと予測したいと思って何とか予測式がたてられないものかと考えた次第です。

距離が一番大きな要因で・・という点で例えば100mあたりタイムで分析するということにまるで気づいていませんでした。
このことと、天候や雪面の状況(これはあくまでもアバウトな人の感覚に頼ったwetであるとかsoftといった表現での状況ですが)の各々のケースに分けてもう一度、その他の変数(標高差や旗門の数)などから分析をしてみます。

無論、雪面をスキーの板が滑る際に発生する摩擦熱で雪が溶け・・・・といった、とても難しい領域に入りきれるはずもなく、また、あくまでも人が滑るタイムのこと。技術面のバラツキやコースのセットの難易度などまで考えれば、到底数式だけで表すことができるわけもないのですが、私が得ることが出来る変数を使ってある程度の傾向をみて「大体この程度のタイムならはずれじゃなさそう」という予測式をたてられるよう頑張ってみます。

教えていただいた本、探してみます。もっとちゃんと勉強します。
ありがとうございました。

お礼日時:2001/08/22 17:59

多変量解析は面白い領域なので頑張ってください。



お礼を読んで少し思ったのですが、wetやdry(スキーだったんですね…)といった雪面状況によって、そもそもタイムの出る構造が全く異なるという「可能性」はあると思います。
その場合、wetとdryのデータを一緒に分析したのでは、逆にモデルがはっきり出ないということもあります。距離などでも同じ事が言えるのですが。

これはどういうことかというと、統計的手法を用いる前に、経験や知識を総動員して、仮説を立てることが必要なことがあるということです。

そう考えるといろいろ難しいわけですけど、パソコンに数字を入れるだけで結果が得られるなんて、そんな簡単なことでも寂しいですし(笑)。
期待する分析結果が得られるよう祈ってます。頑張ってください。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!