外出自粛中でも楽しく過ごす!QAまとめ>>

勉強してるのですが、結局、分散の意味がわかりません。

分散は平均値からのばらつきを示しますので、値が大きければ、分布が大きく、小さければ分布が平均値付近に集中していることを示します。

とあるのですが、値が大きいというのはどの程度を示しますか?


いい例が思いつかなかったのですが、
(2 3 5 5 5 7 8 9 10 100)
では、分散は801.04ですが、これは大きいほうでしょうか?



また、これ以外にもわかりやすい例があれば教えてほしいです。


特に、クラスのテストの平均点・血液型の分布
などを知りたいです。


経済学部一回生のものですが、いまいちわからなかったので質問しました。




また、標準偏差はバラツキをあらわす目安で
たとえば製品の長さを測定した結果、40、50、60、70、80cmだったとします。
この場合の標準偏差は14.1で
14.1cmのバラツキがあるということだと思いますが、

このバラツキというのはどこを基準としたバラツキなんでしょうか?
長さはそれぞれ10cmずつしか違いませんし・・・

中央値からのバラツキなんでしょうか?

これももっとわかりやすい例とかあればお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

大きい、小さいというのは、絶対的なものでなく、相対的なもので使うと思います。


2グループのそれぞれの分散を検討した時、Aの分散は80.5でBの分散は10.1だった。
Aと比べてBの方が平均値近辺にデータが集まっている、というように。

バラツキは「中央値」でなく「平均値」からのバラツキです。
平均値 = 各人のデータを足し合わせたもの / 人数
中央値 = 各人のデータのうち、並び替えをして、中央に来るデータ値

1, 4, 6, 10, 12の中央値は6で、平均値は33/5 = 6.6になります。微妙に違いがあります。

40, 50, 60, 70, 80cmはそれぞれ10cmずつしか違いませんが、平均値(60cm)とそれぞれの
データとの差(絶対値)は20cm, 10cm, 0cm, 10cm, 20cmとなり、0cmの差が一つ、
10cmの差が二つ、20cmの差が二つとなりますね。

50, 50, 60, 70, 70cmの場合と比べて、分散が大きいことは分かりますでしょうか。
    • good
    • 2

高校数学からやり直してください


教科書にわかりやすく書いてあるはずです

http://www.cap.or.jp/~toukei/kandokoro/html/14/1 …
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q分散とは何ですか?

友達の大学の問題で、エクセルで身長の分散を求めなさいという宿題がありました。身長のデータが20個ぐらいあり、分散を表示させるセルに求めるという問題です。(ちょっと見ただけなので、この程度しか情報がなく申し訳ありません。どうも身長と体重などの相関関係を調べているようです。)
相談されたのですが、よくわかりません。分散というのは何なのでしょうか?あと標準偏差、中央値、最頻値、母集団という言葉もあり、言葉の意味が全くわかりません。どなたかわかりやすく言葉の意味を説明していただけたらと思います。
どうぞよろしくお願いいたします。

Aベストアンサー

統計学の基本です。参考 URL で探してください。取り敢えず質問分に上がっている、
分散
相関関係
標準偏差
中央値
最頻値
母集団
はあると思います (全部を確認してはいません)。

ある一定の集団 (例えば日本人 20 歳男子) を想定すると、その集団に属する (例では日本人 20 歳男子) 全員を母集団と言います。その身長をすべて測ることは可能ですが、大変なので、その集団に属する何人 (例えば 20 人) を選びます (これを標本集団と言います)。標本から得られた Data から、母集団全体を推定しようと言うのが統計学です。

ここで、母集団の Data (日本人 20 歳男子全員の身長) が得られたと仮定して、例えば 5 cm 刻みで、人数を調べ、この人数を棒グラフで示します、次に 2.5 cm 刻みのようにやったとき、左右対称で、中央が一番高い山がかければ、これを正規分布といいます。あくまでも、母集団が、正規分布しているときに、分散は意味を持ちます。この正規分布で、一番高いところになる値を 「真の値」 その山の広がり具合なり、とがり具合を示すものが不偏分散になります。

標本集団では、この 「真の値」 がわからず、平均値で代用しますし、平均値と Data から算出される標本分散 (通常分散と言っているものはこちらです) で、その集団の特性を評価します。

中央値は、Data を順に並べたとき、真ん中になる数値です。例えば、
1、2、3、4、5 であれば、3
1、2、3、4、4、5 であれば、中央がないので、真ん中の 2 個 3 と 4 の間で 3.5
最頻値は観察個数が一番大きい値、後者で 4 になります。

ここで例えば、
1、2、2、2、2、3、3、3、3、3、4、4、4、4、4、4、5、6、7
であれば、中央値は 3、最頻値は 4 になります。同時にここでは、観察個数は、
1 1
2 4
3 5
4 6
5 1
6 1
7 1
で、x-軸に 1- 7、y-軸に個数を書いてみると、左右対称の山にはなりませんね。この場合は、平均値、分散を求めても余り意味はありません。

統計学の簡単な教科書を一読することをお薦めします。この場では、きれいな説明はちょっとしがたいので。また Excel の統計関数には、不偏分散と標本分散の両方がありますが、自分で間違いなく使えないようでは、大学生であれば、ちょっと問題だと思います。意味もわからず計算結果だけと言うのは、学問をするものの態度ではありません。

参考URL:http://aoki2.si.gunma-u.ac.jp/lecture/lecind.html

統計学の基本です。参考 URL で探してください。取り敢えず質問分に上がっている、
分散
相関関係
標準偏差
中央値
最頻値
母集団
はあると思います (全部を確認してはいません)。

ある一定の集団 (例えば日本人 20 歳男子) を想定すると、その集団に属する (例では日本人 20 歳男子) 全員を母集団と言います。その身長をすべて測ることは可能ですが、大変なので、その集団に属する何人 (例えば 20 人) を選びます (これを標本集団と言います)。標本から得られた Data から、母集団全体を推定しようと言...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q統計で、有意水準を、0.01あるいは、0.05に決める意味は?

統計で、有意水準を、0.01あるいは、0.05に決める意味が
わかりません。分析する人によって決められると思うのですが、何を基準に
きめればよいのでしょうか?

あと、t検定とは、どんな検定の仕方なのでしょうか?よろしくお願いします。

Aベストアンサー

◇0.05と0.01の使い分けについて

 一般的には 0.05 (危険率5%)を使います。

 理由は、工業製品の場合、多数の集合体から少数をサンプリングして
 カタマリが合格するか?または違いがあるか短時間に判断を
 下す(スクリーニングする)ことが要求されます。 
  また、正確な結果を求めるには、それ相応のデータ数を採る必要
 ありますが、それには時間と労力が掛かります。
 従いまして、費用対効果を念頭におき、危険率を決めます。
 
 大抵の場合、危険率5%の有意差検定にて済みます。
 但し、要求が厳しい場合とか、測定結果の差が大きい場合には
 1%でも検定して結果を記載します。

◇t分布表にて判断する適用範囲;下記条件の場合 t分布を使います。

<< 適用条件 >>
 ロットが異なる2つのサンプル群の標準偏差が未知な場合。
<< 適用範囲 >> 
 1.サンプリングして得られた平均値の差に違いがあるか?判断する場合。
 2.平均値の範囲を推定する(区間推定)場合。

例)ある製品を条件を変えて製造した場合、2つの集合体(カタマリ)
   ができる。そこから各30ケづつサンプリングして平均値を求める。
   この平均値に違いがあるか判断する場合に t分布を使います。

 一般的な工業製品は、全数検査しないうえ、これから作るモノの品質を
 予測しながら保証しければなりません。この場合にはt分布を使うわけです。
 
 一方、サンプル全数を測定して標準偏差が分かっている場合は、
 正規分布表にて有意差検定します。
 つまり、母集団の標準偏差が既知(キチ)の場合、正規分布表を使います。

◇その他
 ご参考まで、既にご存知であろうと思いますが・・・
・0.05 とは危険率 5%という意味で, 確率 5%の割合で間違った
 判断を下す事があるという事です。 
・検定結”判果にて ”有意差が無い”ということは ”同じである"という事
 ではありません。 このデータだけからでは断が下せない”と
 いうだけです。
                       以 上
                  

◇0.05と0.01の使い分けについて

 一般的には 0.05 (危険率5%)を使います。

 理由は、工業製品の場合、多数の集合体から少数をサンプリングして
 カタマリが合格するか?または違いがあるか短時間に判断を
 下す(スクリーニングする)ことが要求されます。 
  また、正確な結果を求めるには、それ相応のデータ数を採る必要
 ありますが、それには時間と労力が掛かります。
 従いまして、費用対効果を念頭におき、危険率を決めます。
 
 大抵の場合、危険率5%の有意差検定にて済みま...続きを読む

Q質的データと量的データの相関について

例えば性別のような質的なデータとテストの点数などの連続変数からなる量的データの間の相関をみるということは出来るのでしょうか??統計の本には相関の結果が書いてあるのですが、結果の読み取り方と計算の仕方がわかりません。基本的な質問ですみませんが、どなたか教えていただけませんか??
宜しくお願いいたします。

Aベストアンサー

で・き・ま・す!!!
こんなこと、なかなか学校ではカリキュラムの中でなんか教えてくれないですよね。私も決して専門家ではないんですが、我流で考えました。(まー結果的には我流でなくて正統流だと自負しているんですが)

さて、本題。
ご質問の文中「質的なデータ」とおっしゃってますが、要は、これも不連続ではあるんですが、数に見立ててしまえばいいんですよ。

<例1>
2者(男と女)での性質の違いを調べたいとき
→数はなんでもよいんですが、例えば、男を1、女を2とすればよいです。

<例2>
3者のものを比べたいとき(男、女、オ○マの3種類とか)
→次の3通りについて、全部相関を調べればよいです。
・A群を1、B・C群を2
   →これで相関が出ればAに属するか否かによって性質が違うということが言えます。
・B群を1、A・C群を2 → 以下同文
・C群を1、A・B群を2 →  〃

Excelとかだと、「相関係数」が容易に関数として求めることができるので、ちょー簡単に分析できますよ。
相関係数というものは-1から+1までの値をとります。絶対値が1に近いほど相関あり、0に近いほど相関なしです。相関係数の絶対値だけが問題なので、男を1、女を2としても、その逆にしてもよいわけです。

私、日ごろ、当たり前のように、応用してますよ。

<実用例>
パンを焼く機械が3台ある工場で、製造不良数と使用機械との間に相関がないかどうか調べる。
この結果、特定の機械でつくったパンだけに不良が多い傾向が認められれば、その機械に対して対策を打つ・あるいは使用禁止にして、残り2台のみ稼動とする など。

以下、補足です。
このような3者以上の時って、結果的に相関係数が最大になるように、それぞれに対する「数値」を微妙に調整していくと理想的ですね。(←試行錯誤的な繰り返しになると思いますが)
例えば、3つの中でナンバー1がどれでワースト1がどれと決まり、さらには、両者の中間のは、どちらかというと他の2つのどちらに近いか、といったことまで判ります。だけど、ここまで分析するのは複雑だし時間がかかるので、私は実用的にはやっていません。前記のように3種類を2種類ずつ3通りに分けるだけで十分と思います。

で・き・ま・す!!!
こんなこと、なかなか学校ではカリキュラムの中でなんか教えてくれないですよね。私も決して専門家ではないんですが、我流で考えました。(まー結果的には我流でなくて正統流だと自負しているんですが)

さて、本題。
ご質問の文中「質的なデータ」とおっしゃってますが、要は、これも不連続ではあるんですが、数に見立ててしまえばいいんですよ。

<例1>
2者(男と女)での性質の違いを調べたいとき
→数はなんでもよいんですが、例えば、男を1、女を2とすればよいです。

...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む

Qエクセル、散布図でデータの一部のみの近似直線を書きたい

(1、5)、(2,8)、(3、16)、(4、25)、(5、37)というグラフをかきました。
ここでグラフのプロットは全てのデータについて表示されたままで、(3、16)、(4、25)、(5、37)だけについての近似直線を描き、式やR2値を表す方法は無いものでしょうか。
(1、5)、(2,8)というデータを消せば目的の式は得られるのですが、(1、5)、(2,8)というプロットをグラフに残したままにしたいのです。
どうぞよい知恵をお貸し下さい。

Aベストアンサー

1系列の一部のデータ範囲を対象に近似曲線を引くことは出来ないように思えます。便宜的な方法として以下が考えられます。お試しください。

■グラフの一部に近似曲線を追加する

全てのデータ範囲を選択する
|グラフウィザード 2/4 「グラフの元データ」|系列タブ|
系列1
 すでに全てのデータ範囲が対象となっている
系列2
 |追加|
 「Xの値」のボタンを押して後半のX値のセル範囲を選択する
 「Yの値」のボタンを押して後半のY値のセル範囲を選択する
グラフが作成される
全てのデータ範囲(系列1)と後半のデータ範囲(系列2)は重なっている
系列2へ近似曲線を追加する
 グラフ上、後半のデータ範囲の1要素を右クリック
 |近似曲線の追加|
 パターン・種類・オプションを指定する

■検討事項

・凡例・マーカー
無指定で系列に「系列1」・「系列2」という名前が付きます。同じ名前にすることは出来るようですが、系列2のみを消すことは出来ないようです。系列名の色を白にして見えなくする、プロットエリアのマーカーも二系列を同色とする、など考えられます。

・近似線
私は近似曲線のオプションに詳しくありませんが、全てのデータ範囲に対する近似線を引いたとして、後半のデータ範囲に対する近似線と重ならない(同形ではない)と思います。

1系列の一部のデータ範囲を対象に近似曲線を引くことは出来ないように思えます。便宜的な方法として以下が考えられます。お試しください。

■グラフの一部に近似曲線を追加する

全てのデータ範囲を選択する
|グラフウィザード 2/4 「グラフの元データ」|系列タブ|
系列1
 すでに全てのデータ範囲が対象となっている
系列2
 |追加|
 「Xの値」のボタンを押して後半のX値のセル範囲を選択する
 「Yの値」のボタンを押して後半のY値のセル範囲を選択する
グラフが作成される
全てのデ...続きを読む

Qエクセルの散布図のX軸に文字を表示したいのですが、どうしたらよいのでしょうか?

エクセルの散布図を使って、下の表をグラフにしたいと思ってます。
a  a1
b  a2
c  a3

この場合、そのまま折れ線グラフにすると、X軸にしっかり、a,b,cと出てくるのですが、散布図の場合は、X軸が1,2,3となってしまって、セル内の文字が表示されません。

X軸の目盛りに、セル内の文字を表示させるにはどうしたらよいのでしょうか?お願いいたします。

Aベストアンサー

残念ですが散布図では不可能です。
そもそもグラフの概念が違います。
散布図は変数領域に対するもう一方の変数の領域を見るためのグラフです。
主に物の寸法バラツキに対する、出力される数値などの相関性を見るために使用するので、要素は全て変数なんです。

質問内容のグラフは、モノに対する物量をあらわすという考え方がありますので、X軸は必然的に固有名詞になります。
この場合、散布図ではなく折れ線グラフで表すのが普通ですね。(2軸の折線でなくても可能)
Y軸要素が2つまでなら、Y1軸とY2軸に分けて要素振り分けが可能です。3つ以上ですと、EXCELでは不可能でしょう。
また、X軸の名称は同列の高い順に並びますので、連続性がある場合は、グラフの元データは上から順番に記入していかなくてはなりません。

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q標本分散と不偏分散の使い分けについて。

標本分散と不偏分散の使い分けについて。

私はメーカーに勤めており、電子部品のばらつきなどでよく標準偏差σを目にします。
自分で少し調べてみると標準偏差にも標本分散を使うときと不偏分散を使うときがあることを知ったのですが、説明が難しくどのように使い分けていいのか分かりません。

標本分散と不偏分散はどのように使い分ければいいのでしょうか。
例えば電子部品の性能や実験データのばらつきにはどちらが使われているのでしょうか?

ご存知の方、教えてください。
よろしくお願いします。

Aベストアンサー

 母集団から全ての標本を抽出して得た、すなわち、全てのデータを使った分散を標本分散、というようです。しかし、標本分散の文字から、抽出した標本の分散という意味から、不偏分散の意味でも使う(私もそうでした)こともあり、標本分散がどちらなのか、混乱しています。質問者も標本分散をこの意味で使っていると想います。

 母集団のデータを知るのが統計学では目的ですが、それには全数(全サンプル)を利用する必要があります。しかし、製品検査などでは、全数検査だと商品が残らない、あるいは手間がかかり過ぎるので抜き取りを行い、全数検査の替わりにできます。この場合の分散は、不偏分散で代用ができます、というのが推測統計学です。

 すなわち、全数検査(文字通り全数、一つ欠けてもダメ)なら標本分散(この用語は混乱を招くので、私は使いませんが)、抜き取りなら不偏分散を利用しています。


人気Q&Aランキング

おすすめ情報