ミスチルの大名曲の数々が配信決定!! 31日間無料!!【PR】

Corr(x,y|条件式)
はどのように定式化されるのでしょうか?
どのように調べてよいのかわからないため
質問させてください。
どうぞよろしくお願いします。

A 回答 (3件)

シグマが抜けてました。



xm = Σsi*xi/Σsi
ym = Σsi*yi/Σsi


要するに、z=aとなるデータだけで相関を取るということですね。
    • good
    • 0
この回答へのお礼

ありがとうございます、
おかげさまでできました。

お礼日時:2005/05/05 11:33

Corr(x,y|z=a)



=Corr(p,q)

ただし、

pi = xi (z = a)
pi = xm (z ≠ a)

qi = yi (z = a)
qi = ym (z ≠ a)

ただし、

xm = si*xi/Σsi
ym = si*yi/Σsi

si = 1 (z = a)
si = 0 (z ≠ a)
    • good
    • 0
この回答へのお礼

なるほど、わかりました。
その方向でもう一度考えてまいります。

ありがとうございました。

お礼日時:2005/04/21 12:47

条件式を満たすような、xとyの組み合わせについて、


相関を計算すればよいのでは?

この回答への補足

そのとおりだと思うんですが…

例えば
変量がx,y,zの場合
Corr(x,y|z=a)
のような場合、一般にどう書けますか??

補足日時:2005/04/20 19:25
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Qcorrel関数の範囲指定

相関を計算したいのですが、都合によりデータが入っているセルが離れています。
例えばA1からA5に入っている5個のデータとB1からB5に入っている5個のデータ、計10個のデータとC1からC10に入っている10個のデータで相関はどのように計算すればいいでしょうか。
配列はA,Bの順番です。
=CORREL((A1:A5,B1:B5),C1:C10)
とするとエラーになります。バージョンは2000です。
宜しくお願いいたします。

Aベストアンサー

A1:A10といった、1列の(セル)範囲に値を入れて、セル範囲を1つに作り直さないとダメだと思いいます。
CORREL関数は
数、
数値配列
数値を含むセル範囲
を指定しますが、本質問では3番目で、関数では、飛び離れた複数範囲をあたかも1つの範囲のごとくに合成をしてくれない(内部ワークエリアの同列・同行に定義しなおしてくれれば良いだけだが)、集約してくれる例はSUM関数以外は少ないように思う。
また2列のデータを関数で1列に刷るとすると、
関数で、行数の違う複数列を1列に並べる方法はやってみると、技巧が要り、意外に難しいでした(掲載は略)。

Qエクセルでの複数条件下での標準偏差の求め方

教えてください。エクセル2007を使用しています。僕はエクセル初心者ではありませんが、玄人でもない中級者くらいだと思います。早速ですが、例えばA列に男か女かの性別、B列に日本、アメリカなどの国籍、C列に東京、フロリダなどの州、県、D列に右利きか左効きか、E列に年齢が書いてある表において、「男、日本、埼玉、右利き」の人の「年齢」の「標準偏差(STDEV)」を求めようとしたとき、計算する方法がわかりません。ソートをかけて求める方法も考えましたが、内容や位置がコロコロ変わるため、向いていないと思ってます。平均値ならAVERAGEIFSで出せますし、合計ならSUMIFSがあると思います。1つの条件(たとえば、「日本」の「年齢」の標準偏差)ならば、なんとかできますが、このような場合の関数はあるのでしょうか?もしなければ、どのように算出するのか教えて頂ければありがたいです。よろしくお願いいたします。

Aベストアンサー

方法1:
=STDEV(IF((A1:A100="男")*(B1:B100="日本")*(C1:C100="東京")*(D1:D100="左"),E1:E100))
と数式バーに記入して,コントロールキーとシフトキーを押しながらEnterで入力します


方法2:
STDEVの基本式
=SQRT((N*Σ(x^2)-(Σx)^2)/(N*(N-1)))
で計算します(関数のヘルプを参照の事)

NはCOUNTIFS関数,ΣxはSUMIFS関数で計算できますが,Σ(x^2)については
=SUMPRODUCT((A1:A100="男")*(B1:B100="日本")*(C1:C100="東京")*(D1:D100="左"),E1:E100,E1:E100)
といった具合に求める必要があります。


人気Q&Aランキング