プロが教える店舗&オフィスのセキュリティ対策術

重回帰分析で、ある予測式をつくりたいです。
一般的(?)には、手持ちの大量のランダムなデータを説明変数として式に投入すると思いますが、
まったく手持ちのデータが無い場合、これから実験を行いデータを集めていく必要があります。

その実験を行う時に、各種説明変数の水準を決める必要もありますが、

①そもそも自分で水準を決めるというのが、重回帰分析のルールから外れていないのでしょうか?
重回帰分析において、説明変数を水準という形で自分で設定することに違和感を感じます。
②各種説明変数の水準組み合わせも考える必要があると思うのですが、実験計画法の組み合わせでやると良いのでしょうか?
③また、実験の繰り返し数は、最低限何回くらい行うのが良いのでしょうか?

手持ちデータが無い場合の、重回帰分析の進め方について、どなたか教えていただけないでしょうか? あるいは、こういう場合は重回帰式ではなく別の方法があるのでしょうか?

A 回答 (2件)

企業でSQCを推進する部門に勤務する統計家です。



実験的にデータを採取して、重回帰分析で予測式を作ることは日常的にやっています。
工業的には、「応答曲面法」という手法になります。

①水準を任意に決めるのは、まったく問題ありません。
その水準を振った因子の影響が、係数(傾き)として求められるからです。
分散分析法では、各水準における特性値の予測値の変化量が、偶然誤差を超えるかどうかという見方をしますので、水準間隔を小さくすれば偶然誤差に埋もれ、水準間隔を大きくすれば有意になる、という恣意性が入ります。
しかし、重回帰分析は傾きを求めます。傾きは水準間隔を変えても一定です。

②実験計画法の考え方でOKです。
求めたい重回帰式の形によって計画が異なります。
・単因子効果 & 交互作用効果 → 直交表(ただし、割り付け列は線点図に従うこと)
・2次効果を含める → 応答曲面用計画(中心複合計画やD最適計画)
・さらに高次 → 空間充填計画(一様計画や球の詰め込み計画)

③実験数は、因子数分くらいの誤差の自由度を確保できる数が必要です。
連立方程式と同じで、実験数は求めたい係数の個数以上は必要です。
最低限だと、それに定数項分の1と誤差の自由度1を加えたものになりますが、
過適合になります(重相関係数や自由度2重調整済み寄与率がほぼ1になる)。
さらに誤差の自由度を増やす必要があり、その目安は単因子の項数くらいです。

参考文献:吉野睦(2009)「JSQC選書10シミュレーションとSQC」
    • good
    • 0
この回答へのお礼

ご回答いただきまして、ありがとうございます。
企業の統計家ということで、とても信頼できます。
自分には少し難しいので追加質問させていただいてもよろしいでしょうか。

追加質問1
>工業的には、「応答曲面法」という手法になります。

自分でデータを集める=応答曲面法
手持ちデータを使う=重回帰分析
ということですか?

手法はどちらも重回帰分析だけど、データを集めるか、持っているかの違いで呼び方が変わるということですか?


追加質問2
>・2次効果を含める → 応答曲面用計画
2次効果とは何ですか?
2次効果と聞いて自分がイメージしたのは交互作用でした。
もっと高次元の分析の話だと推測するのですが、ついていけません。
さらに高次の空間充填計画には、もう目をぱちくりするだけです・・・


追加質問3
理解度確認させてください。
例えば因子が7個だとすると、、、

【最低限】7+定数項分の1+誤差の自由度1=9回(但し過適合となる)

【おすすめ】7+定数項分の1+誤差の自由度7(=因子数)=15回

で、あってますか?

例えばL8直行表で水準組み合わせを決めたら、
直交表によって決められた8通りの組み合わせを15回繰り返すということでしょうか。



また、因子が3個2水準とか少ない場合はどうなるかなと考えたのですが、
水準組み合わせは、総当たりで、2水準×2水準×2水準=8通り
繰り返し回数は3+1+3=7回

8×7回=56回
ということで、やはりかなりの数の実験を覚悟しないといけないということなんでしょうか?


お手数をおかけしますが、
ご回答をいただければ幸いです。
よろしくお願いいたします。

お礼日時:2015/10/11 08:39

#1です。



①いずれも、予測式を求める手法は重回帰分析です。

というか、応答曲面法とは、
・計画的データ採取
・重回帰分析による予測式の構築
・ダウンヒル・シンプレックス法などを用いた最適値探索
という3手法からなる系統的な方法です。

私の書き方がまずかったことをお詫びします。

②2次効果は、予測式では説明変数xの2乗項になります。
回帰線が上凸、下凸になるような効果です。

2乗項を作ると言っても簡単ではありません。
コード化して、2乗して、中心化した上で、項目化しなければ
なりません。(参考文献に詳しく書いてあります)

③だいたいの誤差の自由度の考え方は合っています。
ですが、L8の繰り返し数が15回必要というわけではありません。
7+1+7=15ですから、L8でしたら、2回繰り返すか、
L16を使います。

ただ、7因子、2水準ですと、
L8直交表では無理です。
交互作用と交絡無く主効果が求められる列は、
1,2,4,7列の4列しかありません。
L16を使う必要があります。16回の実験です。

3因子、2水準ですと、
L8の1,2,4列に割りつけて8回の実験をやれば良いです。
    • good
    • 0
この回答へのお礼

①重回帰分析を用いた、発展形のような手法ということですね。
通常の重回帰分析では、線形の回帰式を求めるだけですが、
応答曲面という名前から察するに、重回帰式を面で求めるみたいな感じかなと思っています。

どういう場合なら通常の重回帰分析で、
どういう場合ならこの応答曲面法のステップを踏む解析が必要になるか教えていただけないでしょうか。


②残念ながら自分には理解できません。
重回帰分析すら理解できていないけど、とりあえず使ってみたいという状況です。わからないことが次から次に出てきて、本を買ったり、ネットを見たりしますが、わからなない・・・・。
でもごくまれに”わかった”に出会うのが楽しくて、統計学の勉強を継続しています。今後またお世話になるかもしれませんが、どうぞよろしくお願いいたします。

③L8を15回繰り返すのではなくて、
実験回数が15回以上あればいいということなんですね。
なので、L8なら2回=16回やればいいということですね。

また、交互作用との交絡を忘れておりました。
直交表の全列を使ってしまうと、たしかに交互作用との交絡の恐れがありますね。

これは実験を検討するときに注意したいと思います。

お礼日時:2015/10/11 18:17

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!