文系人間ですが、必死の思いでデータの分析をしてます。
スポーツのタイムの傾向を調べており、距離や気温などからタイムが予測できないかと思っております。いくつかの変数となる値を引っ張り出してそれぞれタイムとの相関関係がある程度あることは解りましたが、その他に天候にもタイムが左右されることに気づきました。
質的データを分析するには数量化理論(1)類での分析がよいと本で知りましたが、通常の数値からの分析である重回帰分析とどのように組み合わせて分析すればよいのでしょう?天気は「晴」「雨」「曇」「雪」「小雪」など5つ程度に分けて考えたいと思います。その他にも質的データとなるアイテムが考えられます。
元が文系人間で数学はとても苦手です。分析もexcelの分析ツールで分析しています。
どなたか良い解法の糸口をお教えください。
No.1
- 回答日時:
多変量解析は、とりあえず数字を入れると結果が出てしまうので、計算過程が分かる必要はないものの、分析方法の概要が分からないで使うのは、正直なところあまりお勧めしません。
数量化I類と重回帰分析は、考え方としては似ていますが、説明変数が連続変数でなければ重回帰は使えません。そのあたりを理解していないと、結果の解釈も心配ではあります。
問題設定からすると、タイムが被説明変数で、説明変数の中に天気という5カテゴリーの離散変数があるパターンですから、天気を含む変数セットで予測式を立てる場合は、必然的にI類しか使えないことになります。
(離散変数でも順序があるものについては、無理やり1~5のような数字をつけて重回帰を使うケースがありますが、それは厳密には間違いです)
「どのように組み合わせて」の意味がもうひとつ良くわからないのですが、天気という変数(およびそれ以外の離散変数)がI類を使った結果それほどの説明力が無いということがはっきりするのであれば、その後連続変数のみで重回帰を使ってみるという方式でいいのではないでしょうか。
この回答への補足
tabaさん、早速のご回答ありがとうございます。
まるきりの無知でお恥ずかしいのですが、「連続変数」の意味がわからないのですが・・・。
天気という変数で解析するにはダミー変数として「0」あるいは「1」で天気の種別を区別して数量化I類で分析するのだと考えていますがこれで正しいでしょうか?
そしてexcelの回帰分析を行っているのですが、その他の距離や気温といった数値類の変数と一緒に回帰分析にかけると計算結果がエラーで出てしまいます。
かといって、天気やその他の(多分、離散変数とおっしゃるものの類だと思うのですが、数値を持っていない変数)変数だけでタイムとの関係を見ることは、距離によってタイムが大幅に左右されるので、あまり意味がなさそうです。
「どのように組み合わせて・・・」と言ったのは、例えば重回帰で数値を持っている変数で予測式を出し、それにI類で出した式をなんとか組み合わせることはできないのだろうか・・・などと素人考えで出た言葉です。
そもそも数学が苦手、中学生(1-2年生)程度の知識しか無いので、本を読んでもΣの文字が出てくると既に理解不能のため、ついexcelの機能に頼っています。
こんな無知な私に、是非もう一度お答えをお願いいたします。
よろしくお願いいたします。
No.2ベストアンサー
- 回答日時:
何のために分析をされるのか分かりませんが、例えば大学などの論文や、ビジネス上の判断材料にしようとするのであれば、専門家に相談することをお勧めします。
失礼な言い方で申し訳ないのですが、補足欄に書かれているコメントを読む限り、正しい分析をすることは難しいと思います。多変量解析は、手法の適用も大切ですが、入力する変数の取捨選択(試行錯誤)や、結果的に出てきたモデルの誤差などを読む力が無いと、使えるとは言えません。「タイムに影響するのは、1に○○、2に△△、…」と書いたところで、ちゃんとプロセスを見る力がある人がデータを見れば、穴がいくらでも見つかるものです。
連続変数(←→離散変数)というのは、量的変数(←→質的変数)と同じで、身長や体重のように連続する変数です。
>天気やその他の変数だけでタイムとの関係を見ることは、距離によってタイムが大幅に左右されるので、あまり意味がなさそうです。
よく分からないのですが、距離が長くなればタイムが伸びるのは当然です。もし、距離「以外」の要素だけの影響を解析したいというのであれば、同じ距離のデータだけを分析するか、距離の影響を除くような加工(例えば100mあたりタイムとか、標準タイムからのプラスマイナスとか)をするとかしないと駄目ですよね。しなければ「距離」が最も大きな要因になるのは当たり前で、ならなければその分析は間違いでしょう。普通は距離が一番大きな要因であることは自明で、2番目の要因が何かを探るのではないですか?
>例えば重回帰で数値を持っている変数で予測式を出し、それにI類で出した式をなんとか組み合わせることはできないのだろうか
これはできません。多変量解析というのは、そもそも2つ以上の変数(=多変量)が、どのように1つの被説明変数に影響を与えるかという構造を、一度に分析するためにあるのです。Xという被説明変数をA,B,C…という説明変数で説明しようとするとき、問題なのはAとB、AとC…などの説明変数内の相互に相関が存在してしまうということです。これを加味(というか排除)しつつ、Xに対するA,B,Cそれぞれの「単独の」影響力を測定するために、多変量解析の手法が存在するのです。
↑もしこの文章で言っていることが初耳なら、悪いことは言いませんから書籍等で勉強することをお勧めします。入門書としては、少し古いですが、以下の本がいいかもしれません。
★創造の方法学(講談社現代新書 553)
高根 正昭著
度々のご回答ありがとうございました。
スキーレースでこの人であれば順当にいけばこのコースでどのくらいのタイムで滑れていただろうかと予測したいと思って何とか予測式がたてられないものかと考えた次第です。
距離が一番大きな要因で・・という点で例えば100mあたりタイムで分析するということにまるで気づいていませんでした。
このことと、天候や雪面の状況(これはあくまでもアバウトな人の感覚に頼ったwetであるとかsoftといった表現での状況ですが)の各々のケースに分けてもう一度、その他の変数(標高差や旗門の数)などから分析をしてみます。
無論、雪面をスキーの板が滑る際に発生する摩擦熱で雪が溶け・・・・といった、とても難しい領域に入りきれるはずもなく、また、あくまでも人が滑るタイムのこと。技術面のバラツキやコースのセットの難易度などまで考えれば、到底数式だけで表すことができるわけもないのですが、私が得ることが出来る変数を使ってある程度の傾向をみて「大体この程度のタイムならはずれじゃなさそう」という予測式をたてられるよう頑張ってみます。
教えていただいた本、探してみます。もっとちゃんと勉強します。
ありがとうございました。
No.3
- 回答日時:
多変量解析は面白い領域なので頑張ってください。
お礼を読んで少し思ったのですが、wetやdry(スキーだったんですね…)といった雪面状況によって、そもそもタイムの出る構造が全く異なるという「可能性」はあると思います。
その場合、wetとdryのデータを一緒に分析したのでは、逆にモデルがはっきり出ないということもあります。距離などでも同じ事が言えるのですが。
これはどういうことかというと、統計的手法を用いる前に、経験や知識を総動員して、仮説を立てることが必要なことがあるということです。
そう考えるといろいろ難しいわけですけど、パソコンに数字を入れるだけで結果が得られるなんて、そんな簡単なことでも寂しいですし(笑)。
期待する分析結果が得られるよう祈ってます。頑張ってください。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
- ・ゆるやかでぃべーと タイムマシンを破壊すべきか。
- ・歩いた自慢大会
- ・許せない心理テスト
- ・字面がカッコいい英単語
- ・これ何て呼びますか Part2
- ・人生で一番思い出に残ってる靴
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・初めて自分の家と他人の家が違う、と意識した時
- ・単二電池
- ・チョコミントアイス
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
理科のグラフで、直線と曲線の...
-
aを実数の定数とする。二次関数...
-
検定統計量の値がマイナス
-
x=2分の3のグラフはどのように...
-
統計について
-
アンケートの集計分析の基礎(...
-
エクセルのグラフから半値幅を...
-
死傷者数と死者数の違いって何...
-
【統計】有意に「高い」?「低...
-
パイロットサンプルって何ですか?
-
心理学の統計について
-
統計学の質問です。2つの標本グ...
-
卒業論文のアンケートの数について
-
ヒストグラムの分布形状が二山...
-
最小二乗法を反比例の式を元に...
-
統計学の問題でわからないので...
-
全数調査における検定の必要性...
-
検量線の決定係数について
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
カイ二乗検定
-
エクセルのグラフから半値幅を...
-
統計について
-
検量線の決定係数について
-
3群の比較にχ二乗検定を使う場...
-
【統計】有意に「高い」?「低...
-
エクセルの統計でχ二乗検定の結...
-
ノンパラメトリック検定の多重...
-
パーセンテージの平均値2標本の...
-
パイロットサンプルって何ですか?
-
二次関数の問題です 二次関数 y...
-
理科のグラフで、直線と曲線の...
-
心理機能診断をしたのですが、...
-
アンケートの集計分析の基礎(...
-
変化率のみで、有意差の検定は...
-
検定統計量の値がマイナス
-
極値をもつ時と持たない時、単...
-
最小二乗法を反比例の式を元に...
おすすめ情報