次のような場合に適した統計手法を教えてください

Question

統計初級者？ぐらいの者です。
基礎的な回帰、重回帰分析ぐらいまでならいちおう（クリック統計学レベルで…）理解しているのですが、いろいろと実作業をやっていて、わからなくなったので質問させていただきます。

さて、
調査の中身自体は全く違いますが、実際に次のような分布のデータがとれました。

--------------------------------
【取得できたデータの概要】
--------------------------------

家族の人数と、現在の生活に対する平均満足度に対するアンケートを5000人に行ったとして、

■A.　生活満足度×家族の人数の相関

まず、家族の人数と、生活満足度を、シンプルにピアソンの相関係数で測った場合、-0.16程度しか出てきませんでした。5000人で、-0.16であれば、弱い相関は確実にあり、p値も、0.001以下になりました。
　ただ、調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。

■B.　平均生活満足度×家族の人数の相関

また、少しデータの見方を変えて、家族人数が１人の時、２人の時、でそれぞれ、生活満足度の平均をとってやったとします。（この場合の「平均」はシンプルに算術平均をとりました。）

１人の時の平均生活満足度：4.5　(n=1500)
２人の時：4.4 (n=1000)
３人の時：4.3 (n=1400)
４人の時：4.2 (n=600)
５人の時：4.1 (n=300)
６人の時：4.0 (n=200)
７人の時：3.9 (n=100)

というようなことが、わかりました。
このとき、
「平均生活満足度」と、「家族の人数」で、
相関をとればキレイに「-1」になるかと思います。
回帰曲線も、キレイな線が引けます。

----------------------------
【質問の本題】
----------------------------

質問の本題は、B．平均生活満足度×家族　の分析のほうになります。

B.の分析で、確かにキレイな数字は出てくるのですが、
こういった形で、分析をしてしまうと、
実際には、5000人のデータを取得しているにも関わらず、
300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。

それぞれのサンプル数が、500人いる場合とで、
サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、
この場合、どのような処理を行うのが適切なのでしょうか。

ご指導お願い出きましたら幸いです。
よろしくお願いいたします。

quaestio · Accepted Answer

> 実際には、5000人のデータを取得しているにも関わらず、
> 300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。

同じ平均が出てきたら、確かに同じ回帰曲線が得られるでしょうが、人数が多いなりの価値があります。
例えば、家族人数が一人のときの生活満足度の分布が平均がμ、分散がσ^2とします。
家族人数が一人の場合で5000人のデータが集まれば、平均生活満足度の分布の分散は(σ^2)/5000ですし、300人のデータなら(σ^2)/300です。
平均生活満足度の信頼性はそれだけ上がります。
（調査のコストに見合うかどうかは別にしてます）

> それぞれのサンプル数が、500人いる場合とで、
> サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、
> この場合、どのような処理を行うのが適切なのでしょうか。

サンプル数というよりサンプルサイズ（標本の大きさ）というべきですが、サンプルサイズが大きい場合は正規分布等に近似できることがありますので、その結果、検定方法が異なるように見えるだけです。

ramayana · Answer

以下は、回答でありません。回答は、 ANo.1 さんや ANo.2 さんでほぼ完結していると思います。ただ、ご質問にいくつか気になることがあったので、突っ込ませてください。統計は、数学以上に常識的感覚が重要なので。

なお、「調査の中身自体は全く違いますが」とあるので、本当は生活満足度と家族人数の調査でないのかもしれませんが、生活満足度と家族人数の話とします。調査の中身を抜きにして適切な分析手法を語るのは難しいです。

１　「調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。」について

この評価には、違和感があります。生活満足度を規定する要因は様々で、仮に家族人数が要因の１つだったとしても、説明力が小さいだろうということは、容易に想像されます。その前提で眺めると、相関係数が -0.16 （決定係数で 0.02～0.03 ＝生活満足度の分散の 2～3 ％が家族人数で説明される）もあるというのは、それなりに大きいというのが実感です。

なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。

２　分析手法について

「生活満足度と家族人数に関係があるか？」という問題意識ならば、回帰分析が普通の手法だと思います。説明変数にかかる係数の大きさや t 値（又は p 値）が判断材料になります。決定係数は重視されません。

また、回帰分析を行うにしても、直線的な関係でないかも知れないので、家族人数そのものを説明変数にするのでなく、家族人数２人、家族人数３人、家族人数４人以上のそれぞれに応じたダミー変数を説明変数にするのがよさそうです（多重共線を防ぐため家族人数１人に対応するダミー変数は使わない）。サンプルサイズが 5,000 もあるので、説明変数を 1　個から 3 個に増やしても、たいした支障はないでしょう。

３　Bのデータについて

このデータは、かなり怪しいです。こんな綺麗なデータなら、どんな検定方法を使っても、ほぼ確実に有意と判定されるでしょう。統計的に有意と判定される典型的なケースとして、次のものがあります。

(1)　生活満足度と家族人数に何らかの関係がある。
(2)　偶然性を壊す何らかの恣意的操作が行われた。

B については、 (2) が疑われます。「生活満足度」は具体的にどんな文言で質問したのか、それが定性的な回答を求めていたのならどのように数値化したのか、どんなサンプリングをしたのか、捏造はないか、等をチェックする必要がありそうです。

４　年齢等をコントロールする必要

チェックの上で生活満足度と家族人数に統計上の関係が確認されたとしても、因果関係があるなどという結論に飛びついてはいけません。一般に、生活満足度も家族人数も年齢と相関があることが知られています。最低限、年齢をコントロールした分析が望まれます（年齢も説明変数に加えるなど）。できれば、仕事、収入、資産、健康状況、配偶関係、居住地などもコントロールすべきでしょう。

stomachman · Answer

回帰分析がお分かりになるということなので、ならば、x=「家族の人数」、y=「生活満足度」として、5000個のデータを全部使って一次式
　　y = ax + b
による回帰分析をしてみて下さいな。（これならA, Bの区別は無用ですし、x=1の場合とx=7の場合のnの違いもきちんと織り込まれます。）そして、係数a, bが従う分布の分散を計算します。
　次に、5000個あるデータのうちから50個をランダムに抽出して、同じことをやってみます。すると、サンプルが多いとaやbの分散が小さくなることが分かるでしょう。

いや、もっと簡単な例で考えるのが良いかな？
　同じモノの重さをn回測定したデータt[j](j=1,2,…,n)があるとします。ただしt[j]は測定ごとに独立で、平均m, 標準偏差σの正規分布に従うものとします。0次式
　　t = c
を使って回帰分析をすると、もちろん
　　c = (tの平均値)
という答が出る訳ですが、このcがmに等しいわけではない。係数cも正規分布に従い、その分散は1/nに比例します。つまり、nが大きいほど、cの精度が高くなる訳です。

次のような場合に適した統計手法を教えてください

> 実際には、5000人のデータを取得しているにも関わらず、

以下は、回答でありません。

回帰分析がお分かりになるということなので、ならば、x=「家族の人数」、y=「生活満足度」として、5000個のデータを全部使って一次式

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング