統計学、エクセルがわかりません！解答と詳しい解説をお願いします！ (1)それぞれの地域別に記述統計量

締切済

質問者：みおですーー
質問日時：2022/08/21 16:30
回答数：9件

統計学、エクセルがわかりません！解答と詳しい解説をお願いします！

(1)それぞれの地域別に記述統計量、ヒストグラムを作成しよう。
(2) 地域ごとに、地価の平均値、中央値 (50%点)、最小値、最大値標準、歪度の値を計算する。
(3) 5% 、10%点、25% 点、 75%点、 90% 点を求めてみよう。 (4) (2) (3) で求めた値を参考にして、ヒストグラムの各階級幅を決める。今回の地価のように、データ範囲があまりに広く、かつ都市によってその幅が大きく異なる場合は、比較したい階級あるいはより多くのデータが分布しているあたりの幅をまず決めてから、残りは全体が含まれるように階級幅を変えていってもよい。今回の場合の3つの地域のデータ区間は、たとえばすべて以下のようにするとうまく比較できるのでこの区間を使う。今回は共通の幅を用いる。

https://1drv.ms/x/s!AhMZ-_bmd6c6mitdTgNGGSJJSeNJ

ヒストグラムに用いる境界値
50000
100000
150000
200000
250000
300000
350000
400000
450000
500000
550000
1000000
2000000
100000000

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (9件)

最新から表示
回答順に表示

No.9

回答者： kamiyasiro
回答日時：2022/08/24 07:52

もし。

私がレポートを書くとすれば、次のようなグラフを提出します。

①公示地価は対数正規分布に従うと考え、常用対数変換してヒストグラム化した。
②価格帯の幅（倍率）は3都市ともほぼ同じだった。
③地価は、住宅地、商用地の混合分布になっていると考え、混合ガウス分布法により分離を試みた。
④その結果、住宅地と商用地の価格比は東京が最も大きく、大阪市は価格比は小さかった。
⑤名古屋市は商用地の比率は最も低く、大阪市は商用地の比率が最も大きかった。大阪市は商業都市であると言える。大阪市は住宅地に比べ商用地の価格比がそれほど高くないことが、商業振興につながっていると考えられる。

注）価格差ではなく価格比としているのは、横軸が対数だからです。

- 0
- 件

通報する

No.8

回答者： kamiyasiro
回答日時：2022/08/22 14:53

5％点（5パーセンタイル）の求め方を、計算機的方法で説明し、それに従って、今回のデータの具体的な値を求めてみましょう。

1,3,3,4,5,6,7,8,9 という数値があるとします。ソート済です。
この数値の5％点を求めてみます。

①n数は9
②(nー1)の0.05倍を求めます。１を引くのは数と数の隙間は8個だから。
③その値は0.4ですから、それに1を加えて1.4。１を加えるのは、最初の数を物差し上の０ではなく１個目としているから。
④1.4番目のように端数のときは、その両サイドの1,3を0.6と0.4で按分。
⑤0.6×１＋0.4×３＝1.8

1.8です。

Rでは、quantile(x, prob = p) という関数でパーセンタイルを求めることができます。残念ながらエクセルのquantile関数は四分位点（25％点と75％点）しか返しません。

なお、25％点と75％点については、前の投稿の1st.Qu 3rd.Quと同じです。

ご参考まで。
出題者は、どんな風に求めることを期待しているんでしょうかね。

> # 5％点（上から順に、東京・名古屋・大阪）
> quantile(na.omit(x[, 1]), prob = 0.05)
5%
257650
> quantile(na.omit(x[, 2]), prob = 0.05)
5%
94000
> quantile(na.omit(x[, 3]), prob = 0.05)
5%
144800

> # 10％点（上から順に、東京・名古屋・大阪）
> quantile(na.omit(x[, 1]), prob = 0.1)
10%
302000
> quantile(na.omit(x[, 2]), prob = 0.1)
10%
103000
> quantile(na.omit(x[, 3]), prob = 0.1)
10%
166800

> # 90％点（上から順に、東京・名古屋・大阪）
> quantile(na.omit(x[, 1]), prob = 0.9)
90%
2247000
> quantile(na.omit(x[, 2]), prob = 0.9)
90%
469000
> quantile(na.omit(x[, 3]), prob = 0.9)
90%
1031000

> # 95％点（上から順に、東京・名古屋・大阪）
> quantile(na.omit(x[, 1]), prob = 0.95)
95%
4564500
> quantile(na.omit(x[, 2]), prob = 0.95)
95%
1007500
> quantile(na.omit(x[, 3]), prob = 0.95)
95%
1890500

- 0
- 件

通報する

No.7

回答者： kamiyasiro
回答日時：2022/08/21 23:02

常用対数変換したヒストグラムを眺めていると、どうも右側に肩がある分布になっていますよね。

つまり、二つの分布が重なっているらしいです。

そこで、QQプロットを描画してみました。

東京23区、名古屋市は、増減傾向の違いから、２つの分布が重なっているようです。住宅地と商業地でしょうか。

ところが大阪市だけは、３つの分布が重なっているように読み取ることができます。どうやら、住宅地か商業地か分かりませんが、明確な格差があるようです。面白いですね。

- 0
- 件

通報する

No.6

回答者： kamiyasiro
回答日時：2022/08/21 20:57

ちなみに、指示通りに描画するとこうなります。

最後の方だけ、ちょっと変更してあります。（いきなり8桁になっていたので、7桁を追加しました。それと、横軸は7桁までしか取っていません。）

すそ野部分がどうなっているか、サッパリ分かりませんね。データのまとめ方としては、上司から「やり直し！」と突っ返されるパターンです。

0,
50000,
100000,
150000,
200000,
250000,
300000,
350000,
400000,
450000,
500000,
550000,
1000000,
2000000,
10000000,　←ここを追加
100000000

- 0
- 件

通報する

No.5

回答者： kamiyasiro
回答日時：2022/08/21 20:24

地価を常用対数変換してグラフ化したものをアップします。

この方が、地域の差が分かって良いです。

統計とは、こういうことに頭を使うことが大切だと思います。

なお、青い線は、対数化したものの平均ですから、幾何平均になっていることに注意して下さい。前回の投稿の算術平均とは一致しません。

- 0
- 件

通報する

No.4

回答者： kamiyasiro
回答日時：2022/08/21 20:00

Rという統計ソフトであれば、このような記述統計量が簡単に求められます。

エクセルのような不向きなソフトを使うより、さっさと統計処理して、考察の方に時間と頭を使いましょう。

下記の値は、解答の参考にして下さい。

なお、この出題者は、パーセント点を求めよ、と気軽に出題していますが、例えば、サンプル数が偶数個のときは、50％点（中央値）は2点の真ん中の架空の値になるように、四分位点（25％点、75％点）もいくつかの求め方があります。

①文科省方式：中央値を除いた前半、後半の中央値
②箱ひげ図の発案者テューキーの方法：中央値が重複すれば両方に含んで前半、後半の中央値
③計算機的方法：(n-1)に0.25, 0.5, 0.75を掛け1を加える。かつその順位の数が非整数のときは、その前後のk番目とk+1番目の値を上記比率で按分する。

ですから、5％点や10％点、90％点は定義を聞いてからでないと、求めることはできません。たぶん、出題者も理解していないと思われます。

あと、ヒストグラムは、ビンの間隔を不揃いにするのは好ましくありません。添付図は、等間隔で描画しています。むしろ、3者が比較できるように軸を揃えるとか、工夫が必要です。

青い線は平均値です。

これも、対数正規分布と思われるので、対数変換して描画すべきと思いますよ。

> summary(x)　（25％点＝1st Qu などは計算機的方法による）
　　東京23区　　　　　名古屋市　　　　　　大阪市　　　　
Min.　 :　170000　 Min.　 :　 34100　 Min.　 :　 70000　
1st Qu.:　388250　 1st Qu.:　132000　 1st Qu.:　198750　
Median :　570000　 Median :　173000　 Median :　252000　
Mean　 : 1416793　 Mean　 :　352103　 Mean　 :　634035　
3rd Qu.:　989750　 3rd Qu.:　257500　 3rd Qu.:　476000　
Max.　 :50500000　 Max.　 :10500000　 Max.　 :14000000　
　　　　　　　　　　NA's　 :998　　　　NA's　 :1174　　　

> # 標準偏差（上から東京、名古屋、大阪）
> sd(na.omit(x[, 1]))
[1] 3548242
> sd(na.omit(x[, 2]))
[1] 828869.8
> sd(na.omit(x[, 3]))
[1] 1467605

> # 歪度（上から東京、名古屋、大阪）
> skewness(na.omit(x[, 1]))
[1] 7.321345
> skewness(na.omit(x[, 2]))
[1] 7.765117
> skewness(na.omit(x[, 3]))
[1] 6.172717

- 0
- 件

通報する

No.3

回答者： yhr2
回答日時：2022/08/21 17:27

エクセルで示されたデータは膨大なので別に考えるとして、そもそも、与えられたデータが10点とか20点だったら、何をどうすればよいのか分かっているのですか？

それが分からないのであれば、エクセルのデータをどうこうする以前の問題です。
しっかり「何をするのか」を勉強してください。

やることが分かっているのであれば、データの多い少ないだけの問題ですから、データ量にめげずやってみるだけの話です。

データを合計するとか、「大きい順、あるいは小さい順に並べる」とか、そういったエクセルデータの操作が必要なら、ネットで検索すればやり方はいくらでも載っています。

どこが分からないのかを明確にして、自分で調べて、それでも分からなければあらためて「補足」にでも書いてください。

自分では何の苦労もせずに、丸投げで課題の解答をもらおうとしているようにしか見えません。
ここでやるのは、統計学の活躍の場である「推測統計」（数少ないサンプル情報から、未知の情報を推測する）に進む手前の、中学・高校あたりでやる「記述統計」（単なるデータ処理）の話ですよ？
いわゆる「統計学」の入り口以前の話です。
これができないようだと、「統計学」の本体には入れません。