ついに夏本番!さぁ、家族でキャンプに行くぞ! >>

購入額アンケートの集計分析をします。サンプルの優劣を分析したいのですが、回答値(購買金額)のばらつきが大きく、そのまでは比較できません。

こうした時は数値の「正規化」(平均値の差の2乗の平均???とか)を行うそうなのですが、
 ・EXCEL関数でどのように実行すれば良いのか、やり方もしくは参考情報の所在をお知らせください。

ちなみに現状の構造は下記2列のシンプルなものです
 ・サンプルID列、 回答購買額列 

このQ&Aに関連する最新のQ&A

A 回答 (2件)

正規化の意味は、正規分布に変換する、ということでしょうか。

そうすると、二つのグループの優劣は、出ないのではないでしょう。

>」(平均値の差の2乗の平均???とか)
のような操作をすると、なんとなくそうなりますが。
たとえば、受験のときに、理科の点数は、10、15、25点で、国語は60、70、98の試験の場合、理科で試験を受けた者は不利になります。この場合、正規化(標準化?)という変換をします。すなわち、グループが正規分布するように変換するわけです。そうすると、差がなくなり、どちらで試験をうけても、有利不利は補正できる、というのが利点です。
これは、ご質問の趣旨と、まったく逆のような印象があります。


グループAは、10、20、100、1000だった。グループBは、1000、2000、100000だった、という場合というケースでしょうか(有意差があるかもしれませんが)。この場合は、正規分布していないでしょうから、t検定は使えません。

この場合は、F検定をするのが一般的だと思います。あるいは、順位差検定、というのもありますが、これはパソコン用のソフトを思いつきません。以前やったときには、BASICでプログラミングしましたが、20年も昔のことで、・・・。

 ご質問の意図を取り違えていれば、ご容赦を。もしあっていれば、続きを書きます。
    • good
    • 0

こんにちは.


t検定を始めとする多くの統計解析法・データ解析法は「正規分布」を仮定していますね.

ただ,この「正規分布」の仮定について,多くの方が誤解しているように思える気がしてならないのは「正規分布の仮定とは,標本データの正規性ではなく,標本データの【平均値】の正規分布」を理解しているか,ということです.おそらく,母集団と標本データの区別をしていないため,このような誤解を招くのだと思います.

で,この勘違いが更に進んでしまうと次のようなことがおきます.

ある集団と別の集団の二つの集団を標本集団としてデータを採取しました.そしてt検定を行うとします.t検定は正規分布を仮定しているとして,それぞれの集団データが正規分布しているかを調べました.その結果,それぞれの集団データは正規分布していませんでした……

さあ,どうしましょう?
勘違いしている人は「うわっ,標本集団データが正規分布していないから,正規分布を仮定しているt検定は適切じゃない!」としてt検定の使用を断念するかもしれません.

が,それは間違いです.何を間違っているかわかりますか?
先程も言ったように,t検定をはじめとする多くの統計法は,標本集団データそのものではなく,集団の代表値である平均値を対象としているのです.調べるのは平均値であって,個々のデータではないのです.そしてその平均値の数値が,平均値の分布の中で統計的に珍しいものであるかどうかを調べているのです.「標本集団データの正規分布」ではなく,「標本集団の【平均値】の正規分布」が問題になるのです.

ここで興味深い原理を紹介しましょう.
それは中心極限原理と呼ばれるものです.この原理とは「十分大きなデータの【標本の平均値】は,その標本の母集団がどのような分布をしていても,正規分布に近似する」というものです.

……前置きが長くなりました.
無論,Excelで正規化をすることはできますが,その前に!

・標本データのデータ数が少なくとも,そのものが正規分布であれば,その標本のもとなった母集団も正規分布であると考えられる.よって通常の正規分布を仮定した統計解析法が使える.

・標本データのデータ数が大きければ(n=50あるいは100;研究者によって見解が異なる),その標本データが正規分布でなくとも,「中心極限原理」によって,母集団データは正規分布であると考えられる.よって通常の正規分布を仮定した統計解析法が使える.

となります.ゆえに「データ数が充分であれば」,ごく普通に正規分布を仮定した統計解析が使えます.
データ数が少なければ,「正規化」を行うか,あるいは順位和検定などのノンパラメトリック検定法を使うなどを行う必要があります.
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q数値データの正規化

ほぼ素人なのですが若い社員に教える必要があるので四苦八苦してます。どうぞ判りやすくお教えください。数値データを統計的に処理する場合標準偏差を求めますね。そして場合によっては、更に深く解析を進めるためにはそれを正規化し比較する作業がありますね。例えばこの正規化された数値は偏差値の計算にも使われます。偏差値=10u+50(uは正規化された数値) ここまでは間違ってないですね!
ここからが未だスッキリしない疑問です。正規化された数値はは平均値が0で、標準偏差・分散が1にあり-1~+1の範囲にある。と理解してましたが、どうも違う気がしてきてます。というのは正規化された数値が-1~+1の範囲の値しか取らないのであれば偏差値も40~60の値しか示さないことになります。「東大合格へは偏差値70あれば良い!」が説明できなくなります。多分、どこかで見た、あるいは教えていただいた「正規化された数値は-1~+1の範囲にある」が抜けきらないからスッキリしないと思うのですが、私は何処でどのように誤った理解をしたのかが気になって仕方ありません。「-1~+1の範囲」は誤りなので、割り切って頭の中を切り替えれば済むようですが・・・・・何方か私が誤った理解をするに至った経緯を推論していただけないでしょうか?気分をスッキリさせるだけの我が儘な質問ですがご親切な方、よろしくお願いします。

ほぼ素人なのですが若い社員に教える必要があるので四苦八苦してます。どうぞ判りやすくお教えください。数値データを統計的に処理する場合標準偏差を求めますね。そして場合によっては、更に深く解析を進めるためにはそれを正規化し比較する作業がありますね。例えばこの正規化された数値は偏差値の計算にも使われます。偏差値=10u+50(uは正規化された数値) ここまでは間違ってないですね!
ここからが未だスッキリしない疑問です。正規化された数値はは平均値が0で、標準偏差・分散が1にあり-1~...続きを読む

Aベストアンサー

> 私が誤った理解をするに至った経緯を推論していただけないでしょうか?

正規化というのにはただ一つのやり方しかないと思い込んだのが間違いのもとです。
正規化とはデータを使いやすい数値に変換するということであってそのやり方にはいくつかあります。
平均値を引いて標準偏差で割るのも一つの方法ですが,
最小値を引いて(最大値-最小値)で割ったり,
中央値を引いて(最大値-最小値)で割ることも考えられるでしょう。
最後のやり方をすれば「正規化された数値は-1~+1の範囲にある」と言えます。

Q数値データの規格化

数値データの規格化の方法を教えてください

最大値がXmax,最小値がXminであるN個のデータ群 Xn(n=1,2,3・・・)があります.

このデータを最大値がA,最小値がBとなるように規格化したいです.

元のデータ群Xnで最大値を1,最小値を0となるような規格化は分かるのですが,
そこから,最大値をA,最小値をBとなるように変換する方法が分かりません.

よろしくお願い致します.

Aベストアンサー

最大値がA,最小値がBとなるように規格化したデータをYn(n=1,2,....)とすると

Yn=B+(A-B)*(Xn-Xmin)/(Xmax-Xmin)

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q正規化(時間)

正規化についてその方法を教えてください。

例)
Aデータ 15秒で200のデータ取得
Bデータ 18秒で120のデータ取得
Cデータ 22秒で222のデータ取得したとします。

これを時間で正規化してデータをグラフ化する方法。

宜しくお願いします。

Aベストアンサー

まず確認したいことが何点かあります。
1.200, 120, 222とはデータの個数ですか。それともデータそのものですか?
2.あなたの言う正規化とはどういうものですか?
  統計学では正規化というと平均を0、分散を0にすることが多いですが、「時間で」とあるからにはあなたの言う正規化は違うものなのでしょう。
3.察するにA, B, Cのデータは時間に依存するデータで、時間の影響を除いてそれらを比較したいのでしょうが、どう依存すると考えますか? 或いはどういうことを知りたい又は言いたいために比較するのですか?
  例:データが時間に比例するかどうか知りたい等

参考URL:http://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%8C%96

Q正規化についてお聞きしたいです。 たとえばエクセル

たとえばエクセル上に数値データが150~250程あるときにそれをデータ数100にするにはどのようにしたらよいのでしょうか?

Aベストアンサー

>1周期分の数値データが1列に150~250程あます。
特定の列に、縦方向(150~200)行分のデータがあるってことなのだろうか

>複数の周期の数値データを全て100個に統一して比較がしたいので
ある周期分は150で、次の周期は200で、その次は160で、といった感じで一定の範囲内でデータ数は変動すると言いたいのだろう

>1列の数値データを100個の数値データに補正(?)したいのです。

それが必要な結果というのは分かりました

さて、その補正に関する規則はどうするのですか?
全周期分、先頭から100個以後は切り捨てるのですか?
それとも、4個分のデータの内でランダムに1個分のデータを除外しますか?
はたまた、隣り合う2個或いは3個のデータの平均をとってソレをデータとして残しますか?

結局、生データをどういう法則・規則で成形データとして残すのか?
ソレを考えたり決めたりして貰わなければ、何も始まりません。

ソレはエクセルは考えてくれませんから、人間が考える必要があります。

その法則・規則をエクセルの数式やマクロやVBAで実現するのです。

>1周期分の数値データが1列に150~250程あます。
特定の列に、縦方向(150~200)行分のデータがあるってことなのだろうか

>複数の周期の数値データを全て100個に統一して比較がしたいので
ある周期分は150で、次の周期は200で、その次は160で、といった感じで一定の範囲内でデータ数は変動すると言いたいのだろう

>1列の数値データを100個の数値データに補正(?)したいのです。

それが必要な結果というのは分かりました

さて、その補正に関する規則はどうするのですか?
全周期分、先頭から100個...続きを読む

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q加重平均と平均の違い

加重平均と平均の違いってなんですか?
値が同じになることが多いような気がするんですけど・・・
わかりやす~い例で教えてください。

Aベストアンサー

例えば,テストをやって,A組の平均点80点,B組70点,C組60点だったとします.
全体の平均は70点!・・・これが単純な平均ですね.
クラスごとの人数が全く同じなら問題ないし,
わずかに違う程度なら誤差も少ないです.

ところが,A組100人,B組50人,C組10人だったら?
これで「平均70点」と言われたら,A組の生徒は文句を言いますよね.
そこで,クラスごとに重みをつけ,
(80×100+70×50+60×10)÷(100+50+10)=75.6
とやって求めるのが「加重平均」です.

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

QExcelデータ、グラフを積分する方法

実験して出たデータをエクセルに移しました。このデータを基にしたグラフの積分値を求めたいと考えています。

エクセルの本、インターネット検索をし理解したところ、x軸の刻みをとる式や、y軸の値との積を求める式を自分で入力して、面積を求め、それを合計するという手動な方法をとる必要があると理解しました。

この手段以外にはエクセルで積分する方法はありませんでしょうか。

また、実験値のx軸の刻みが大きすぎるので、いったんそれぞれの実験値の間で関数(2点の間で直線と考えた方が誤差が少なそうなので、それぞれの点間での関数を考えています)を作り、x軸の刻みを自分で細かく設定し、この手動の積分をしようと考えています。

当方、エクセルの知識が浅く数学からもしばらく離れていましたため、検討外れな言葉、内容を申しておりましたら申し訳ありません。どなたかご教授願います。どうぞよろしくお願い申し上げます。

Aベストアンサー

他に高度な技術をお持ちの方がいらっしゃるかもしれませんが、私もその方法で計算しています。近似式の作り方はそれぞれ場合によりますが、あとは適当なΔXを選定するだけですね。
念のために少しΔXの値を変えてみてほぼ収束値になっているかどうかを検証することもありますが、最近はPCの速度も速いので、よほど何回も繰り返し計算をするのでなければ小さめのΔXをはじめから採用しています。
参考にしてください。

Q正規化について(初心者です)

正規化について勉強しています。(質問ジャンルが違うかもしれません)

正規化の意味は漠然とつかめますが、どのように計算するんだろうと悩んでいます。
正規化について検索していると下のような質問がありました。これを正規化するとどうなるのでしょうか。計算式を教えてくださいませんか?
先ずは身長での正規化で具体例をお願いします。



年齢  身長   体重
21    160     55
24    172     63

私が計算すると分子がゼロになってしまいます。

Aベストアンサー

正規化っていろいろな意味で使われていて,どういう文脈で出てきたかによって具体的な計算手順は異なるんだけど,わかっているのかな?
http://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%8C%96
にのっている正規化のやり方だと
(元の値-ファクターの最小値)/(ファクターの最大値-ファクターの最小値)
は「用途によっては、同じように比例変換や線形変換をするのでも、最大値を1、最小値を0(あるいは-1)のような正規化をすることもある。」と言われているやり方ですね。これで計算するのなら,最小のものは必ず0になるし,最大のものは必ず1になります。したがって元のデータが2つであれば,0と1に変換されるわけです。だから

> 私が計算すると分子がゼロになってしまいます。

というのは正しい計算をしているのです。


人気Q&Aランキング