電子書籍の厳選無料作品が豊富!

[統計学 クラスター分析]
こんにちは。
クラスター分析、使用するデータの
データの作成について質問があります。

自動車のクラスター分析をしようと思っているのですが(アクア、プリウス、アルファード…)で4群程度で分けするつもりです。


データは
販売台数、燃費、何人乗り、価格で
実行してみたいと考えています。

燃費だと、e燃費のサイトを見たところ
アクアを例に出すと型式で実燃費がそれぞれ違ってくるのですがそのようなばらつきがある場合はどうしたらいいのでしょうか?


例えば同じアクアでも
23.41
23.56
25.22
23.81
23.30
24.11
23.71
(km/l)
と、ばらつきがあります。
この場合
どうすればいいのでしょうか。

平均値をとればいいのでしょうか?
それとも

23.41〜25.22というように

度数を求めれば良いのでしょうか?

また、自動車の販売台数は日本自動車販売協会連合会の
統計データ乗用車ブランド通称名別順位
http://www.jada.or.jp/data/month/m-brand-ranking/
を使用しています。

質問者からの補足コメント

  • 回答ありがとうございます。

    トヨタ自動車の販売台数でコロナ前とコロナ後で売り上げにどのような相関があるのかなどを調べるつもりです。(石油や、燃費、景気動向指数などで)

    カテゴリですが、最初はコンパクトカー、suv、ワンボックスカーなどでカテゴライズしようとしたのですがデータが十分にないため、車種ごとで分析することにしました。

      補足日時:2020/07/08 11:58
  • すみません、
    質問です。

    最も売れているグレードがわからない場合はどうすれば良いでしょうか。

    また、代表値とは、平均をとればいいのでしょうか?
    すみません、お願いいたします。

      補足日時:2020/07/10 11:23

A 回答 (2件)

最も売れているグレードの諸元をその車種の代表値にする。



もし、平均を取るのであれば重み付き平均です。同一車種内のグレード毎の登録台数が分かれば重み付き平均が計算できますが、如何でしょうか。

ところで、クラスター分析で何をしたいかですけど・・・。もともと、セダン、RV、ツーリングとセグメント化されているのに、なぜ教師なし学習をやるんですか。
また、クラスター分析は、白黒はっきりさせるのには良いです。しかし、もし二山が重なった分布のときは、クラスター分析によって、
①重心位置が変わる(2群は遠ざかる)
②各々の群の分散は小さくなる
というデメリットがあります。
最近は、そんな古典的な方法ではなく、混合ガウス分布法というやり方があるということを申し添えておきます。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。
セダン、コンパクトカーなどでカテゴリされている販売台数データが探してもないため、車名でやることにしました。

お礼日時:2020/07/08 12:15

>と、ばらつきがあります。


>この場合
>どうすればいいのでしょうか。

あなたは、何を、どのように分析したいのですか?
全てはそれによって決まると思うのですが。

まさか「自動車の仕様表の見方」を質問しているのではないですよね?
同じ「車名」でも、型式やモデル・仕様によって性能や特性が異なるのは当たり前です。

「車名」によって何をカテゴライズしようとしているのかを、きちんと見極める必要があると思います。
本当に「車名」でよいのか、もっと別なカテゴライズのしかたが必要なのかを。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!