プロが教えるわが家の防犯対策術!

統計ソフトにただ数字を入れているだけの統計については全くの素人です。よろしくお願いします。
中心複合計画(Central composite (rotatable) design)を使用して、2個の計画変数(添加濃度Xと反応時間Y)に対する独立変数の応答曲面を出そうとしています。中心4回繰返しで2つのスターポイント(α=1.4142)をとって、12点の実験を行う計画を立て、結果を出しました。結果はaX^2+bY^2+cXY+dX+eY+fの二次モデルをステップワイズで有意差の無い因子(F<4)を排除しました。

ある結果でステップワイズをかけると完全に式が無くなったり、単純な1次式(dX+fのような)になりましたが、実験している感覚だと三次式的な挙動をしていると感じました。そこで、gX^3+hY^3+(二次モデル)という式を作ってステップワイズをかけたところ高いR^2が出ました。邪道な解析だと思いますが、このような中途半端な三次モデルで現象を説明することは可能でしょうか?
このような方法で論文の考察を行っている例はございますか?

本来は二次モデルで収まるように予備実験すべきなのかもしれませんが、どうしても予備実験も再実験もできない状況でしたので。。。
統計の知識が無いもので、説明自体に誤りがあるかもしれません。何卒よろしくお願いいたします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

#1です。



間違えました。

XTX(Tは転置)を取った時に、右下がり対角線以外が
1になります。

0になります。
    • good
    • 0

企業でSQC推進を担当する統計家です。



まず、どういうソフトを使用して生成されたか知りませんが、
今の計画は、2変数の中心複合計画としては、良くない計画です。
本来、中心点の繰り返しを8回行わないと直交しません。
直交するときは、因子の行列をXとして、
XTX(Tは転置)を取った時に、右下がり対角線以外が
1になります。
現在の計画のXTXは下記のとおりであり、
2次項間に交絡が出ています。
そのために、2次項が打ち消しあっているかもしれません。
(^2は.2と表現)

x1 x2 x1.2 x2.2 x1x2
x1 8 0 0.000 0.000 0
x2 0 8 0.000 0.000 0
x1.2 0 0 6.666 -1.333 0
x2.2 0 0 -1.333 6.666 0
x1x2 0 0 0.000 0.000 4

次に、3次のモデルですが、
中心複合計画のスター点距離を1ではなく、今回のように1.4などの値とすると
軸上に5水準できますので、1見4次のモデル推定まで可能なように見えます。
しかし、高次のモデル
1st・・・x1,x2
2nd・・・x1^2,x2^2,x1*x2
3rd・・・x1^3,x2^3,x1*x2^2,x1^2*x2
を考えXTXを取りますと、
x1にはx1^3が交絡、x2にはx2^3が交絡しており、
実は、そのようなモデルは解けないことが分かります。
もともと、中心複合計画は、単峰仮定の計画なのです。
すなわち、ご質問者が解いた式は、
1次モデルそのものという可能性があります。

x1 x2 x1.2 x2.2 x1x2 x1.3 x2.3 x1x2.2 x1.2x2
x1 8.000 0.000 0.000 0.000 0 12.000 0.000 -1.333 0.000
x2 0.000 8.000 0.000 0.000 0 0.000 12.000 0.000 -1.333
x1.2 0.000 0.000 6.666 -1.333 0 0.000 0.000 0.000 0.000
x2.2 0.000 0.000 -1.333 6.666 0 0.000 0.000 0.000 0.000
x1x2 0.000 0.000 0.000 0.000 4 0.000 0.000 0.000 0.000
x1.3 12.000 0.000 0.000 0.000 0 19.999 0.000 -4.000 0.000
x2.3 0.000 12.000 0.000 0.000 0 0.000 19.999 0.000 -4.000
x1x2.2 -1.333 0.000 0.000 0.000 0 -4.000 0.000 2.222 0.000
x1.2x2 0.000 -1.333 0.000 0.000 0 0.000 -4.000 0.000 2.222

ところが、最近のデータサイエンスは、
スパース構造推定ということが可能です。
3次だけのモデルで解きたいのなら、
lasso(ラスー)(罰則付き回帰、L1正則化回帰)という方法で
解かれてはいかがでしょうか。

(上記の行列を求めたRプログラム)
#
x <- data.frame(
matrix(c(
-1, -1,
-1, 1,
1, -1,
1, 1,
-1.4142, 0,
1.4142, 0,
0, -1.4142,
0, 1.4142,
0, 0,
0, 0,
0, 0,
0, 0)
,ncol=2,nrow=12,byrow=T)
)
names(x)=c("x1","x2")
x$x1.2 <- x$x1^2
x$x2.2 <- x$x2^2
x$x1x2 <- x$x1 * x$x2
x <- sweep(x,2,apply(x,2,mean))
round(t(as.matrix(x)) %*% as.matrix(x),digit=3)
x$x1.3 <- x$x1^3
x$x2.3 <- x$x2^3
x$x1x2.2 <- x$x1 * x$x2.2
x$x1.2x2 <- x$x1.2 * x$x2
x <- sweep(x,2,apply(x,2,mean))
round(t(as.matrix(x)) %*% as.matrix(x),digit=3)

yの値を教えて頂ければ、ラスーで行った回帰式を回答します。
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q重回帰分析で手持ちデータがまだない時は?

重回帰分析で、ある予測式をつくりたいです。
一般的(?)には、手持ちの大量のランダムなデータを説明変数として式に投入すると思いますが、
まったく手持ちのデータが無い場合、これから実験を行いデータを集めていく必要があります。

その実験を行う時に、各種説明変数の水準を決める必要もありますが、

①そもそも自分で水準を決めるというのが、重回帰分析のルールから外れていないのでしょうか?
重回帰分析において、説明変数を水準という形で自分で設定することに違和感を感じます。
②各種説明変数の水準組み合わせも考える必要があると思うのですが、実験計画法の組み合わせでやると良いのでしょうか?
③また、実験の繰り返し数は、最低限何回くらい行うのが良いのでしょうか?

手持ちデータが無い場合の、重回帰分析の進め方について、どなたか教えていただけないでしょうか? あるいは、こういう場合は重回帰式ではなく別の方法があるのでしょうか?

Aベストアンサー

企業でSQCを推進する部門に勤務する統計家です。

実験的にデータを採取して、重回帰分析で予測式を作ることは日常的にやっています。
工業的には、「応答曲面法」という手法になります。

①水準を任意に決めるのは、まったく問題ありません。
その水準を振った因子の影響が、係数(傾き)として求められるからです。
分散分析法では、各水準における特性値の予測値の変化量が、偶然誤差を超えるかどうかという見方をしますので、水準間隔を小さくすれば偶然誤差に埋もれ、水準間隔を大きくすれば有意になる、という恣意性が入ります。
しかし、重回帰分析は傾きを求めます。傾きは水準間隔を変えても一定です。

②実験計画法の考え方でOKです。
求めたい重回帰式の形によって計画が異なります。
・単因子効果 & 交互作用効果 → 直交表(ただし、割り付け列は線点図に従うこと)
・2次効果を含める → 応答曲面用計画(中心複合計画やD最適計画)
・さらに高次 → 空間充填計画(一様計画や球の詰め込み計画)

③実験数は、因子数分くらいの誤差の自由度を確保できる数が必要です。
連立方程式と同じで、実験数は求めたい係数の個数以上は必要です。
最低限だと、それに定数項分の1と誤差の自由度1を加えたものになりますが、
過適合になります(重相関係数や自由度2重調整済み寄与率がほぼ1になる)。
さらに誤差の自由度を増やす必要があり、その目安は単因子の項数くらいです。

参考文献:吉野睦(2009)「JSQC選書10シミュレーションとSQC」

企業でSQCを推進する部門に勤務する統計家です。

実験的にデータを採取して、重回帰分析で予測式を作ることは日常的にやっています。
工業的には、「応答曲面法」という手法になります。

①水準を任意に決めるのは、まったく問題ありません。
その水準を振った因子の影響が、係数(傾き)として求められるからです。
分散分析法では、各水準における特性値の予測値の変化量が、偶然誤差を超えるかどうかという見方をしますので、水準間隔を小さくすれば偶然誤差に埋もれ、水準間隔を大きくすれば有意になる、とい...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q普通自動車の運転免許の正式名称

を教えてください。
履歴書になんてかけばいいかわかりません。

普通自動車第一種免許や第一種普通運転免許とかいわれていますが。

警察などの公式な場所に問い合わせてみた人がいましたら教えてください。

Aベストアンサー

抜粋です.「普通自動車免許」ですね.
「第一種運転免許」はありますが,「普通自動車第一種免許」や「第一種普通運転免許」とは言わないようです.第二種の場合は名称に入り,「普通自動車第二種免許」のように言うようです.

--------------------
道路交通法
第六章 自動車及び原動機付自転車の運転免許
第八十四条  自動車及び原動機付自転車(以下「自動車等」という。)を運転しようとする者は、公安委員会の運転免許(以下「免許」という。)を受けなければならない。
2  免許は、第一種運転免許(以下「第一種免許」という。)、第二種運転免許(以下「第二種免許」という。)及び仮運転免許(以下「仮免許」という。)に区分する。
3  第一種免許を分けて、大型自動車免許(以下「大型免許」という。)、普通自動車免許(以下「普通免許」という。)、大型特殊自動車免許(以下「大型特殊免許」という。)、大型自動二輪車免許(以下「大型二輪免許」という。)、普通自動二輪車免許(以下「普通二輪免許」という。)、小型特殊自動車免許(以下「小型特殊免許」という。)、原動機付自転車免許(以下「原付免許」という。)及び牽引免許の八種類とする。
4  第二種免許を分けて、大型自動車第二種免許(以下「大型第二種免許」という。)、普通自動車第二種免許(以下「普通第二種免許」という。)、大型特殊自動車第二種免許(以下「大型特殊第二種免許」という。)及び牽引第二種免許の四種類とする

参考URL:http://law.e-gov.go.jp/cgi-bin/idxselect.cgi?IDX_OPT=2&H_NAME=&H_NAME_YOMI=%82%c6&H_NO_GENGO=H&H_NO_YEAR=&H_NO_TYPE=2&H_

抜粋です.「普通自動車免許」ですね.
「第一種運転免許」はありますが,「普通自動車第一種免許」や「第一種普通運転免許」とは言わないようです.第二種の場合は名称に入り,「普通自動車第二種免許」のように言うようです.

--------------------
道路交通法
第六章 自動車及び原動機付自転車の運転免許
第八十四条  自動車及び原動機付自転車(以下「自動車等」という。)を運転しようとする者は、公安委員会の運転免許(以下「免許」という。)を受けなければならない。
2  免許は、第一種運...続きを読む

Q寄与率の計算式

分散分析を勉強中のものです。
分散分析において各要因の寄与率は次の式で与えられるようです。(数冊の書籍で確認しているので一般的な式と認識しています。)

寄与率=(Si-fi・Ve)/St ×100
 Siは要因iの平方和、fiは要因iの自由度、Veは誤差の分散、Stは全体の平方和

私が引っかかっているのは、なぜSi/St×100であらわさず、-fi・Veが余計についているのでしょうか?
どなたか教えていただけないでしょうか
よろしくお願いします。

Aベストアンサー

私の回答があなたの疑問に正しく向き合っていなかったような気がするので、補足します。
分散分析によってすべてがクリアになったように思えるのですが、実は、全く誤差のないモデルと、現実の誤差のあるモデルで実験をすると、誤差のあるモデルのほうが、抽出したはずの「割り付けた要因の分散」まで大きくなります。これは、誤差というものが、必ず左右平等に現れるものでない、という性質からくるものです。しかし、分散分析は「誤差が左右平等に現れる」という前提で行いますから、不平等分は「要因の分散」に上乗せされます。ですから、要因の効果の「推定」をするときには、その分を推定して引き算しなければなりません。私たちは、当たり前のように f・Ve を引き算していますが、この量は、定性的には、誤差によって不当に(?)大きくなってしまった要因の効果を補正しているものだ、と考えることができます。

Q「ロバスト設計」ってどんな設計

ロバストという言葉をよく耳にします.
ロバスト設計とは具体的にどのような設計なのでしょうか
目的、方法、参考資料などありましたら教えてください

Aベストアンサー

ykkw_2001さんが書かれているように「外乱に強い」ということですが、ここでいう外乱とは「誤差」ということだと思います。例えば、あなたが自動車の設計者だとします。高速運転できる自動車を設計しようとしたときに路面状態はあなたが決定することは出来ません。雨の日もあれば晴れの日もある。路面が濡れているか、乾いているかは設計者ではどうしようもできないことなので、路面の状態は誤差と考えられます。
このような誤差が大きくても(路面が濡れていても、乾いていても)どちらでも高速運転が出来るように自動車を設計することがロバスト設計です。
今回は、自動車の設計を例に取りましたが、別に自動車以外でもかまいません。設計者が決定できない要因が誤差因子で、この誤差因子に影響を受けにくい設計をすることがロバスト設計なのですが、具体的には、タグチメソッド、品質工学という項目で検索してみて下さい。
最近よく言われるロバスト設計(ロバストデザイン)、品質工学、タグチメソッド、これらは全て同じ手法を指しています。

QExcel2000で3次元プロット図を作成するには?

Excel2000で3次元プロット図を作成するにはどのようにしたら良いのでしょうか?
3つの特徴量(x,y,z)を持った複数のデータを3次元(x,y,z)座標上にプロットする
グラフを作成したいのです。
3次元グラフは立体的(斜め上から見たような)に描かせたいのです。
ご存知の方、ご教授願います。

Aベストアンサー

3次元のグラフを作成するときは一度2次元にして作成します
とりあえず、x,y,zすべての情報をセルに書き出します
Z軸周りに回転せずX軸周りにα、Y軸周りにβ回転させた場合の
図形のX-Y平面に投射した図は以下のpx,pyの点をグラフにすればできます
公式は以下のとおりです
px=x*cos(β)+z*sin(β)
py=y*cos(α)-(-x*sin(β)+z*cos(β))*sin(α)
実際にはPXとPYの点をグラフにすればできます
例えば、z=x+yの場合シートは以下のとおりになるかと思います
z x y px py
2 1 1 ・・ ・・
3 1 2 ・・ ・・
※pxとpyは面倒なので自分で計算してください
またαとβはラジアンで入力してください
度(θ)をラジアン(x)に変更する公式は
x=θ*pai/180
です
pai=3.14159・・・です
関数にパイがありますのでそれを使用してください
わからないことありましたらまた回答します

Q樹脂材料の曲げ弾性率について

先日、仕事の関係でプラスチックのスナップフィット
(プラスチック部品の一方と他方がパチンとはまる
爪形状です。プラモデルにもよくあると思います。)
の荷重計算をしようとしました。
その爪形状には大きなテーパがついており、
根元が太く先細だったので、
単純な梁の公式では計算できずに
excelマクロによる数値積分で
梁の曲げ微分方程式(d^2y/dx^2=-M/EI)を
解こうとしました。
-------------------------------------
一応できたので、早速荷重を計算して実測値と
照らし合わせてみようとしたのですが、
材料のヤング率(縦弾性係数)を知らないことに
気づきました。
同僚に聞いてみたところ、「曲げ弾性率」というのは
材料の仕様書に載っていると教えてくれました。
職場にある材料便覧を見ても「曲げ弾性率」は
載っていました。
この「曲げ弾性率」はヤング率(縦弾性係数)と
同じなのでしょうか。それとも違うのでしょうか。
もし違う場合、ヤング率(縦弾性係数)は
どのようにして調べるべきなのでしょうか。
似たような経験がある方がいましたら
お手数ですがご教示願います。

先日、仕事の関係でプラスチックのスナップフィット
(プラスチック部品の一方と他方がパチンとはまる
爪形状です。プラモデルにもよくあると思います。)
の荷重計算をしようとしました。
その爪形状には大きなテーパがついており、
根元が太く先細だったので、
単純な梁の公式では計算できずに
excelマクロによる数値積分で
梁の曲げ微分方程式(d^2y/dx^2=-M/EI)を
解こうとしました。
-------------------------------------
一応できたので、早速荷重を計算して実測値と
照らし合わせてみようとし...続きを読む

Aベストアンサー

結果から言うと,Eに曲げ弾性率を代入しても問題ないと思います.

引張弾性率と曲げ弾性率は測定方法が異なりますので,物性のもつ意味は違います.引張りの場合(丸棒を引っ張るようなケースです),材料内部はすべて引張応力になりますよね.

しかし,曲げの場合(板を曲げるようなケース)では,ふくらんでる面には引張応力,へこんでる面には圧縮応力がかかります.このため,例えば引張弾性率と圧縮弾性率が異なるような材料では,引張弾性率と曲げ弾性率は違ってきます.

また,少し専門的になりますが,曲げのかかる部材には,引張・圧縮応力の他に,せん断応力もかかっています.これらの効果が総合的に寄与してくるため,引張弾性率と曲げ弾性率は,「意味合いとしては」異なる物性値です.

しかし,ごく一般的なプラスチックであれば,引張弾性率と曲げ弾性率はほぼ同じ値になります.
下記などにデータが出ていますが,恐らくほぼ同等か,曲げ弾性率の方が10%程度低い値になっていると思います.
http://www.m-ep.co.jp/mep-j/tech/index.htm
http://www.mrc.co.jp/acrypet/04tech_01.html

カタログデータに曲げ試験が多い理由は,試験が簡単だからです.薄い平板の試験片が使えますからね(チューイングガムのような形状です).それに対し,引張試験では,試験片を「つかむ部分」の加工が難しく,やや複雑な形状になってしまいます.

というわけで,プラスチックの分野では,曲げ弾性率を測定して,これをEとして代用するケースが多いと思います.

ただし,圧縮やせん断弾性率が引張と極端に違う材料・・・たとえば,ガラス繊維で一方向強化したような異方性材料では,曲げ弾性率とヤング率は大きく異なります.

あと,蛇足になりますが・・・
曲げ弾性率=曲げ応力/曲げひずみ
とありますけど,前述の通り,曲げ応力や曲げひずみは一定値ではありませんので注意が必要ですね.材料内部で分布をもっています(ここが引張と違うところ).

通常は,曲げスパンL,破断荷重P,試験片幅b,厚さh,たわみxなどを用いて,
E=(P・L^3)/(4・b・h^3・x)
のような式で求めます.試験方法によっても式が違ってきますので,材料力学の教科書をお読み下さい.

結果から言うと,Eに曲げ弾性率を代入しても問題ないと思います.

引張弾性率と曲げ弾性率は測定方法が異なりますので,物性のもつ意味は違います.引張りの場合(丸棒を引っ張るようなケースです),材料内部はすべて引張応力になりますよね.

しかし,曲げの場合(板を曲げるようなケース)では,ふくらんでる面には引張応力,へこんでる面には圧縮応力がかかります.このため,例えば引張弾性率と圧縮弾性率が異なるような材料では,引張弾性率と曲げ弾性率は違ってきます.

また,少し専門的になりま...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Q実験計画法 L8直交表の割付けについて

実験計画法 L8直交表の割付けについて教えてください。
L8の直交実験で因子A(4水準)、因子B(2水準)、因子C(2水準)の要因分析をしたいと考えています。
1,2,3列を使い因子Aを割付けようと思いますが、残りの因子Bと因子Cは何列に割付ければよいのでしょうか。
またそのとき因子Aと因子B、因子Aと因子Cの交互作用はそれぞれ何列に現れるのでしょうか。
それとも直交表を変形させてしまうと因子間の交互作用は評価できなくなってしまうのでしょうか。
見よう見まねで実験計画法を使ってみたいと思うのですが、本質が理解できておらないため質問させていただきました。
よろしくお願いいたします。

Aベストアンサー

> これでL16の実験を行い解析をしてみようと思います。

念のための蛇足です。線点図 (1) を使って A, B, C, A×B, A×C だけを割付けると A, B, C の多元配置で、全ての水準組み合わせが1回ずつですから、実験は減ってません。

つまり直交表の利点を生かそうと思ったら、少なくとももう1つの要因 D を割付ける必要があります。しかし先にも触れたとおり、D が他の要因 A, B, C 全てと交互作用があるとすると、今度は誤差項の自由度が小さくなって、主効果すら検出できなくなる恐れがあります。(検出の心配は無用なら、そもそも実験なぞせずに効果がわかるはず。)

だから D としては「A, B, C のなるべく多くの要因と交互作用がないことが先験的にわかっているようなもの」を取り上げられると、嬉しいわけです。そのように都合の良い要因で興味あるものが存在するかどうかは、実験の実質的な内容によります。

ついでに言うと、交互作用効果や主効果の有意でなかったものを順次、誤差に繰り入れてしまって検出力を上げることは、実際には行われています。けれどこれは、検定の基本思想からは明らかにおかしな行為です。

> 4水準因子を交えた線点図の読み方がやはりピンときません。

疑問が具体的なら、お答えできるかもしれません。

> これでL16の実験を行い解析をしてみようと思います。

念のための蛇足です。線点図 (1) を使って A, B, C, A×B, A×C だけを割付けると A, B, C の多元配置で、全ての水準組み合わせが1回ずつですから、実験は減ってません。

つまり直交表の利点を生かそうと思ったら、少なくとももう1つの要因 D を割付ける必要があります。しかし先にも触れたとおり、D が他の要因 A, B, C 全てと交互作用があるとすると、今度は誤差項の自由度が小さくなって、主効果すら検出できなくなる恐れがあります。(検出の心配は...続きを読む

Q標準偏差を求める際のデータ数について

統計初心者ですが、この度アンケート調査を行い、その結果報告書を作成しなければならないのですが、データ数9の場合、平均、最小、最大に加え、標準偏差も記載しようと思っていますが問題はないでしょうか?

標準偏差は、データが30、50以上ないと意味がないということを聞いたことがあるので戸惑っています。

また問題ない場合、「データ数が少ない場合は補正係数を掛ける」という説明を見かけたのですが、これは単に算出した標準偏差に補正係数を掛けて、記載すればいいのでしょうか? この場合の記載の仕方などについても教えていただけないでしょうか。

Aベストアンサー

標準偏差を求めることは,特に問題はありません。
ただ,データ数が少ないとばらつき具合が正しいかどうかの判断に困るというだけです。

補正係数については,条件によって変化する場合,例えばアンケートだと男女差や年代等による差異を軽減するためには使えますが,質問を見る限りは補正をする必要はないと思います。

標準偏差の意味を知る意味でも,正規分布について調べてみることをおすすめします。


人気Q&Aランキング