アプリ版:「スタンプのみでお礼する」機能のリリースについて

統計初級者?ぐらいの者です。
基礎的な回帰、重回帰分析ぐらいまでならいちおう(クリック統計学レベルで…)理解しているのですが、いろいろと実作業をやっていて、わからなくなったので質問させていただきます。


さて、
調査の中身自体は全く違いますが、実際に次のような分布のデータがとれました。

--------------------------------
【取得できたデータの概要】
--------------------------------

家族の人数と、現在の生活に対する平均満足度に対するアンケートを5000人に行ったとして、


■A. 生活満足度×家族の人数の相関

 まず、家族の人数と、生活満足度を、シンプルにピアソンの相関係数で測った場合、-0.16程度しか出てきませんでした。5000人で、-0.16であれば、弱い相関は確実にあり、p値も、0.001以下になりました。
 ただ、調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。

■B. 平均生活満足度×家族の人数の相関

 また、少しデータの見方を変えて、家族人数が1人の時、2人の時、でそれぞれ、生活満足度の平均をとってやったとします。(この場合の「平均」はシンプルに算術平均をとりました。)

1人の時の平均生活満足度:4.5 (n=1500)
2人の時:4.4 (n=1000)
3人の時:4.3 (n=1400)
4人の時:4.2 (n=600)
5人の時:4.1 (n=300)
6人の時:4.0 (n=200)
7人の時:3.9 (n=100)

というようなことが、わかりました。
このとき、
「平均生活満足度」と、「家族の人数」で、
相関をとればキレイに「-1」になるかと思います。
回帰曲線も、キレイな線が引けます。

----------------------------
【質問の本題】
----------------------------

質問の本題は、B.平均生活満足度×家族 の分析のほうになります。

B.の分析で、確かにキレイな数字は出てくるのですが、
こういった形で、分析をしてしまうと、
実際には、5000人のデータを取得しているにも関わらず、
300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。

それぞれのサンプル数が、500人いる場合とで、
サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、
この場合、どのような処理を行うのが適切なのでしょうか。

ご指導お願い出きましたら幸いです。
よろしくお願いいたします。

A 回答 (3件)

> 実際には、5000人のデータを取得しているにも関わらず、


> 300人ぐらいのデータでも、同じ平均が出てきたら同じ結果になってしまうかと思います。

同じ平均が出てきたら、確かに同じ回帰曲線が得られるでしょうが、人数が多いなりの価値があります。
例えば、家族人数が一人のときの生活満足度の分布が平均がμ、分散がσ^2とします。
家族人数が一人の場合で5000人のデータが集まれば、平均生活満足度の分布の分散は(σ^2)/5000ですし、300人のデータなら(σ^2)/300です。
平均生活満足度の信頼性はそれだけ上がります。
(調査のコストに見合うかどうかは別にしてます)

> それぞれのサンプル数が、500人いる場合とで、
> サンプル数が10人いる場合とで、行うべき検定等の手法が異なってくるのではないかと思うのですが、
> この場合、どのような処理を行うのが適切なのでしょうか。

サンプル数というよりサンプルサイズ(標本の大きさ)というべきですが、サンプルサイズが大きい場合は正規分布等に近似できることがありますので、その結果、検定方法が異なるように見えるだけです。
    • good
    • 0
この回答へのお礼

お礼遅くなりました。
 
非常によくわかりました。(そして、自分が何をわかっていなかったかがわかりました…!)
ありがとうございます。

お礼日時:2013/08/24 03:29

以下は、回答でありません。

回答は、 ANo.1 さんや ANo.2 さんでほぼ完結していると思います。ただ、ご質問にいくつか気になることがあったので、突っ込ませてください。統計は、数学以上に常識的感覚が重要なので。

なお、「調査の中身自体は全く違いますが」とあるので、本当は生活満足度と家族人数の調査でないのかもしれませんが、生活満足度と家族人数の話とします。調査の中身を抜きにして適切な分析手法を語るのは難しいです。

1 「調整済み決定係数は、0.1未満…。正直、かなり弱い相関で、今ひとつインパクトに欠けるデータです。」について

この評価には、違和感があります。生活満足度を規定する要因は様々で、仮に家族人数が要因の1つだったとしても、説明力が小さいだろうということは、容易に想像されます。その前提で眺めると、相関係数が -0.16 (決定係数で 0.02~0.03 =生活満足度の分散の 2~3 %が家族人数で説明される)もあるというのは、それなりに大きいというのが実感です。

なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。

2 分析手法について

「生活満足度と家族人数に関係があるか?」という問題意識ならば、回帰分析が普通の手法だと思います。説明変数にかかる係数の大きさや t 値(又は p 値)が判断材料になります。決定係数は重視されません。

また、回帰分析を行うにしても、直線的な関係でないかも知れないので、家族人数そのものを説明変数にするのでなく、家族人数2人、家族人数3人、家族人数4人以上のそれぞれに応じたダミー変数を説明変数にするのがよさそうです(多重共線を防ぐため家族人数1人に対応するダミー変数は使わない)。サンプルサイズが 5,000 もあるので、説明変数を 1 個から 3 個に増やしても、たいした支障はないでしょう。

3 Bのデータについて

このデータは、かなり怪しいです。こんな綺麗なデータなら、どんな検定方法を使っても、ほぼ確実に有意と判定されるでしょう。統計的に有意と判定される典型的なケースとして、次のものがあります。

(1) 生活満足度と家族人数に何らかの関係がある。
(2) 偶然性を壊す何らかの恣意的操作が行われた。

B については、 (2) が疑われます。「生活満足度」は具体的にどんな文言で質問したのか、それが定性的な回答を求めていたのならどのように数値化したのか、どんなサンプリングをしたのか、捏造はないか、等をチェックする必要がありそうです。

4 年齢等をコントロールする必要

チェックの上で生活満足度と家族人数に統計上の関係が確認されたとしても、因果関係があるなどという結論に飛びついてはいけません。一般に、生活満足度も家族人数も年齢と相関があることが知られています。最低限、年齢をコントロールした分析が望まれます(年齢も説明変数に加えるなど)。できれば、仕事、収入、資産、健康状況、配偶関係、居住地などもコントロールすべきでしょう。
    • good
    • 0
この回答へのお礼

統計に未熟な人間に対する、とても丁寧なコメントをいただき感謝です。

>調査の中身を抜きにして適切な分析手法を語るのは難しいです。

仰るとおりです。いろいろと、前提の話を変えてしまって申し訳ありません。

>相関係数が -0.16 (決定係数で 0.02~0.03 =生活満足度の分散の 2~3 %が家族人数で説明される)もあるというのは、それなりに大きいというのが実感です。

なるほど。調査自体はまったく違うのですが、同じ内容の調査だとすれば、おっしゃられることはその通りだと感じました。

>なお、分析手法は、知りたいことが最もよくわかるように選ぶものです。インパクトのある結果を求めて分析手法をいじるのは、邪道だと思います。

申し訳ありません…
ただ、統計学び中の身分ですと、そもそも、「知りたいことが最もよく分かる」ための統計手法に何と何があるか、というバリエーションも十分理解できていない状況ですので、正攻法のバリエーションと、邪道な分析手法のいじり方の差もわかっていない段階です。

>説明変数にかかる係数の大きさや t 値(又は p 値)が判断材料になります。決定係数は重視されません。

ありがとうございます!
そうなんですね。勉強になります。

>それぞれに応じたダミー変数を説明変数にするのがよさそう

おお!ダミー変数ですか…!使ったことがないのですが、ダミー変数はよくよく考えて使わないと、それこそ、邪道っぽい感じがするのですが…、よくよく調べてやってみたいと思います!ありがとうございます。


>3 Bのデータについて

あー、これはわざわざツッコミをいただいてすみません。
話をわかりやすくするために、数値をやたらときれいにしてしまいました。
実際のデータは、きれいな右下がりのデータではあるのですが、もうちょっとバラけています。
サンプリングには、かなり気をつけて無作為抽出に近づけるようにしたのですが、それでもサンプリングバイアスがいくつか問題があることがわかり、どのぐらいサンプリングバイアスがきつくかかっているかどうかを、確認中です。
その上で…

>4 年齢等をコントロールする必要

なのですが、他にも説明変数を取得していますので、事後的になってしまいますがですが、統制群をつくって処理することができそうです。
というか、ご指摘をいただいて、そうだよな、本当にそのとおりだよな…と思いながら、再度、処理をしようと思えてきました。
ご指摘あらためて感謝です。

お礼日時:2013/08/24 04:31

回帰分析がお分かりになるということなので、ならば、x=「家族の人数」、y=「生活満足度」として、5000個のデータを全部使って一次式


  y = ax + b
による回帰分析をしてみて下さいな。(これならA, Bの区別は無用ですし、x=1の場合とx=7の場合のnの違いもきちんと織り込まれます。)そして、係数a, bが従う分布の分散を計算します。
 次に、5000個あるデータのうちから50個をランダムに抽出して、同じことをやってみます。すると、サンプルが多いとaやbの分散が小さくなることが分かるでしょう。

 いや、もっと簡単な例で考えるのが良いかな?
 同じモノの重さをn回測定したデータt[j](j=1,2,…,n)があるとします。ただしt[j]は測定ごとに独立で、平均m, 標準偏差σの正規分布に従うものとします。0次式
  t = c
を使って回帰分析をすると、もちろん
  c = (tの平均値)
という答が出る訳ですが、このcがmに等しいわけではない。係数cも正規分布に従い、その分散は1/nに比例します。つまり、nが大きいほど、cの精度が高くなる訳です。
    • good
    • 0
この回答へのお礼

ありがとうございます!

お礼日時:2013/08/24 04:33

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!