プロが教える店舗&オフィスのセキュリティ対策術

まずは添付画像をご覧ください。

当該画像は、100m走のタイム表になります。
区間タイムと総合タイムの両方が載っており、最下部にはAVERAGE関数を使って平均を出してあります。

質問の目的としては、結果(Totalタイム)が早い選手は、どの区間が早い傾向があるか?ということを分析したいのですが、どういう分析方法が適切でしょうか?

あまり高度ではなく、初心者向けの初歩の分析法でかまいません。
当方が考えた限りでは、
①各選手別の区間タイムと平均の差分を出して、平均以上にゲインした選手を特定する
②区間別にゲインした数値と、Totalタイムで「相関分析」を行う
という形が簡単ながらもそれっぽいことができるのではないか?と思ったのですが、
これで私の知りたいことは出せますでしょうか?

当方、数学や統計の知識がないため、できるだけ簡単にExcelで割り出せる方法が知りたいです。
何卒ご教示のほどよろしくお願いいたします。

なお、お手数ですが、可能でしたら分析する際のExcelの雛形などもお教えいただけましたら幸いです。

「統計分析とExcelに詳しい方、何卒よろ」の質問画像

質問者からの補足コメント

  • ちなみに、添付画像のタイムに関してですが、架空のダミーデータであり、適当に数字を入れただけになります。適当なので相関分析をしても恐らく無相関になるかと思いますのでそこは無視してください。

      補足日時:2022/05/27 10:37

A 回答 (6件)

#5です。



ちょっと、数値変換した方が良いかと思うようになりました。

totalタイムが短いサンプルは、基本的に原点寄りになり、4変数の差が縮まってしまうため特徴が出づらく、そのまま扱うのは良くないと思います。

そこで、まずは#3さんのごとく、totalタイムを100として比率に直します。

その上で次元縮約します。

しかし、逆に和が100という線形制約が入っているので逆行列が求められず主成分分析が出来ないので、カーネル主成分などで次元縮約し、クラスター分析に持ち込みます。
    • good
    • 0

n=4でなく、n=50とか、それ以上のサンプルがある分析を考えます。


n=4で「傾向がある」なんて結論を出しても誰も信じませんよね。

初心者向けとか高度とか関係なく、4次元空間にあるサンプルの布置から傾向を見つけようとすると、「次元縮約」→「クラスタリング」が定石だと思います。そこで・・・、

①4列の単位が同じだから分散共分散行列を出発行列とする主成分分析を行って主成分得点をプロットし、totalタイムの早いサンプル(上位20%とか)に着色してクラスタを見つける。
クラスタは1つかもしれないし、複数あるかもしれない。(先行逃げ切りもあれば、最後にマクるやつらもいるから)

②バイプロット(因子負荷量ベクトルのプロットでもよい)から、4つの因子ベクトルのどれがそれらのクラスタに近いか調べる。(180°逆になるケースに注意)

弊社の技術者にこの問題を提示すれば、8割がこの方法を使うと思いますが、エクセルでは無理ですね。
    • good
    • 0

とりあえずグラフにしてみて眺めてみてはどうでしょう。


例えば添付図のように、totalと区間TIMEで散布図にしてみるとか。
「統計分析とExcelに詳しい方、何卒よろ」の回答画像4
    • good
    • 0

まずは、「何をしたいのか」という「目的」なり「要求事項」を明確にすることが必要です。


質問文を読む限り、あなたの知りたいのは「トータル時間のうちの、各区間の比率」がどうなっているか、ということですよね?
それが、トータルで速い人と遅い人ではどういう傾向になっているのか、ということ。

だったら、各区間の「絶対時間」を相互に比較してもあまり意味がなく、トータル時間に対する「区間ごとの所要時間の比率」か何を計算して比較しないと意味がないのでは?

たとえば、各グループのトータル人数が違うのに、各血液型の人数自体を比較しても意味がなく、「血液型の比率」で比べないと意味がないようなもの。

トータル時間の順位で並べて、その区間ごとの比率を計算してみれば

第1位:三輪さん
0~20:3.57/12.40 ≒ 0.2879 = 28.79%  ②
20~50:2.81/12.40 ≒ 0.2266 = 22.66%  ③
50~80:3.03/12.40 ≒ 0.2444 = 24.44%  ③
80~100:2.99/12.40 ≒ 0.2411 = 24.11%  ②

第2位:太田さん
0~20:3.62/12.41 ≒ 0.2917 = 29.17%   ③
20~50:2.51/12.41 ≒ 0.2023 = 20.23%   ①
50~80:3.18/12.41 ≒ 0.2562 = 25.62%   ④
80~100:3.10/12.41 ≒ 0.2498 = 24.98%  ③

第3位:伊藤さん
0~20:3.86/12.72 ≒ 0.3035 = 30.35%   ④
20~50:2.65/12.72 ≒ 0.2083 = 20.83%   ②
50~80:2.98/12.72 ≒ 0.2343 = 23.43%   ②
80~100:3.23/12.72 ≒ 0.2539 = 25.39%  ④

第4位:岡村さん
0~20:3.67/13.26 ≒ 0.2768 = 27.68%   ①
20~50:3.64/13.26 ≒ 0.2745 = 27.45%   ④
50~80:2.98/13.26 ≒ 0.2247 = 22.47%   ①
80~100:2.97/13.26 ≒ 0.2240 = 22.40%  ①

右の「○で囲った番号」は、4人のその区間の比率の順位です。
これから分かるのは、1位の三輪さんは飛びぬけて比率の高い区間はなく、全区間が平均的な比率です。
それに対し、4位の岡村さんは、3つの区間の比率がダントツに小さいのに、たった1つの区間の比率が悪くて順位を落としています。

上の結果から、そういうことが分かると思います。

「統計的なテクニック」に走る前に、「自分は何を分析したいのか」「そのためにはどんなデータが必要か」ということをよく考えることがポイントかと思います。「How」の前に、まずは「What」を明確にするということです。
    • good
    • 1

お礼をドモね^^



>あくまでも”傾向”を知りたい
それはそうなんだろうけど…
最初に対象となる主語が「Totalが早い選手」なので、その条件下ではそれ以外の選手データは不要なんだよね。
キミの頭の中は、選手全員がその主語の中に居続けている印象がある。
(マトリクス的に、別の傾向も調べる必要があろうことは想像に難くない)
その上で、その主語でさえ「1位と限定せず、TOP5とか、上位20%など」と条件をボカしてしまうと、その先に進めないのではないの?というシンプルな意味。だって、それぞれのケースで結果は違ってくるだろうからね。

それとも、選手全員の区間ごとの差分から、Top5とか上位20%の選手を抽出して相関の有無を調べる方法はあるかもね。どうしても全体で見たければ、早い選手順に占有する係数を決めてしまう方法もある。

それでも選手ごとに、ダッシュ型/加速型/後半伸びといったタイプの違いがあるだろうから、これを記録向上に活かすには同一人物に対して複数回のデータは欲しいだろうね。
    • good
    • 2

ちょっと理解に至らないかもだけど…



あなたの設問は「結果(Totalタイム)が早い選手は~」とあるので、まずはその主語となる「早い選手」の基準を確定する必要はありそう。
上位1名だけ見るのか、平均以上と判断するのか、規定タイムを設定するのか…等。
そこは、あなたが決める条件だと思うしね。

シンプルに、話はそれからな気がするんだけど違うかなぁ。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます^^

>「早い選手」の基準を確定する必要

そこは私自身明確には定義していなかったです^^;

あくまでも”傾向”を知りたいので1位だけとは限定せずに、TOP5の選手の平均とか、上位20%の平均などが該当するかと思います(一部の選手は他の選手とは違う例外的な区間が早い可能性もあるので。外れ値の除外といえばいいのでしょうか?)。


そうなると、用意すべき(加工すべき)データとしては、
①区間タイム
②Totalタイム
③区間別の平均タイム
④選手別の平均タイムとの差分
⑤定義づけした早いの条件タイム
を用意した上で、

差分と条件タイムで相関分析を行う形がいいでしょうか?
それとも何か他に考えられる方法はございますか?

お礼日時:2022/05/27 10:51

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!