統計初心者です。
統計解析ソフトRで単回帰分析をしようと思っています。単回帰分析は繰り返しがある場合です。さらに回帰式の95%信頼限界を求めたいと考えています。昨日、書店を回って成書を見たのですが、上記の説明がされているものを見つけることができませんでした。
テキストファイルからデータの読み込みはできましたし、散布図を作成することもできました。
しかし、n=3のデータをそのままlm(従属変数~独立変数)として計算させると、Coefficientsの値(切片、傾き)が全く異なる値となります。
そこで
1.繰り返しがある場合、普通にlmだけでは解析できないのでしょうか。
また、95%信頼限界については、どのように取り組めばいいのか、検討がつきません。
ご教示の程、よろしくお願いします。

2.さらに、95%信頼限界の求め方を教えていただけないでしょうか。
よろしくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (3件)

> 95%信頼限界ですが、predict関数をつぎのように書くことで求めることはできますか?


> 回帰式<-lm(従属変数~独立変数)
> 信頼限界<-predict(回帰式)
> また、入力した独立変数の値を入力して、95%信頼限界の値を求めたいのですが、どのようにすればよいでしょうか?

実際に実行してみればわかりますが、それではうまくいきません。
例を下に挙げますので、実際に実行してみてください。


###### ここから #####

(mydata <- data.frame(x = 1:10, y = c(0.5365829, 1.6717796, 3.5224681, 4.6027141, 3.8602299, 5.2651266, 8.6274736, 7.5756941, 11.0286530, 8.1631078))) # テストデータ

with(mydata, plot(y~x)) # 散布図の表示

mydata.lm <- lm(y~x, data = mydata) # 回帰分析
summary(mydata.lm) # 分散分析表
abline(mydata.lm) # 回帰直線の追加

predict(mydata.lm, interval = "confidence") # mydata$xについての95%信頼区間を求める
predict(mydata.lm, newdata = data.frame(x = c(1:9 + 0.5)), interval = "confidence") # data.frame(x = c(1:9 + 0.5))についての95%信頼区間を求める

###### ここまで #####


一つ目のpredictは、newdataの指定がないため、独立変数xの1,2,...10についての予測値がfitに95%信頼区間がlwr, uprに計算されます。
二つ目のpredictは、newdataの指定があるため、newdataのデータフレームの値、つまり1.5, 2.5,...9.5についての予測値がfitに95%信頼区間がlwr, uprに計算されます。

実際には、predictで信頼区間を計算しているのではなく、predict.lmが下請けをしているので、使い方がわからない場合は、
?predict.lm
を実行してヘルプをご覧ください。
    • good
    • 0
この回答へのお礼

詳しい説明ありがとうございました。
なんとか、目的を達成しました。

お礼日時:2009/05/14 20:20

要するにこういうのが書きたいのですか?



conf.limit <- function(x, y, alpha=0.05){
plot(x, y)
n <- length(x)
b <- var(x, y)/var(x)
a <- mean(y)-b*mean(x)
abline(a, b)
sx2 <- var(x)*(n-1) # SSX
R <- max(x)-min(x)
x1 <- seq(min(x)-R*0.1, max(x)+R*0.1, R/20) # x軸の値(=x')
y1 <- a+b*x1
ta <- -qt(alpha/2, n-2) # t.crit
Ve <- (var(y)-var(x, y)^2/var(x))*(n-1)/(n-2) # MSe(=s)
temp <- ta*sqrt(Ve)*sqrt(1/n+(x1-mean(x))^2/sx2) # 信頼区間
y2 <- y1-temp
lines(x1, y2, lty="dotted", col="red")
y2 <- y1+temp
lines(x1, y2, lty="dotted", col="red")
temp <- ta*sqrt(Ve)*sqrt(1+1/n+(x1-mean(x))^2/sx2) # 予測区間
y2 <- y1-temp
lines(x1, y2, lty="dashed", col="blue")
y2 <- y1+temp
lines(x1, y2, lty="dashed", col="blue")
}

# 使い方
> conf.limit(x, y) # これだけ。

ともあれ、実行例を示してもらえばより的確な回答ができるのかもしれませんが^^;
「統計解析ソフトRで単回帰分析(繰り返しあ」の回答画像2

この回答への補足

アドバイスありがとうございます。
現在の私の理解範囲ではグラフを書くところまでは行っていません。将来、グラフ化が必要なときにはまたアドバイスをよろしくお願いします。
さて、今すぐに対応しなくてはいけないのは、独立変数の各数値における95%信頼限界を求めることです。
predict関数を使えばよいことがわかったのですが、その使い方がわかりません。ご教示をよろしくお願いします。
たとえば、
回帰式<-lm(従属変数~独立変数)
信頼限界<-predict(回帰式)
とすることで、95%信頼限界の式を求めることはできるのでしょうか。さらに、上述したように、入力した独立変数の値を入力して、95%信頼限界の値を求めるにはどのようにすればよいのでしょうか。
先日、成書を購入して勉強し始めたばかりで初歩的なことで申し訳ありませんがよろしくお願いします。

補足日時:2009/05/12 11:16
    • good
    • 0

1.繰り返しがある場合でもlmでできますがどうやったのでしょうか?



> n=3のデータをそのままlm(従属変数~独立変数)として計算させると、Coefficientsの値(切片、傾き)が全く異なる値となります。

どう入力してどう異なったのかを補足に記載は可能でしょうか?

2.predictを使用しましょう。

この回答への補足

ご回答ありがとうございます。
よく確認してみますと、独立変数と従属変数を逆に入れていたことに気づきました。変数を入れ替えたところ、期待通りの回帰式ができました。
さて、95%信頼限界ですが、predict関数をつぎのように書くことで求めることはできますか?
回帰式<-lm(従属変数~独立変数)
信頼限界<-predict(回帰式)
また、入力した独立変数の値を入力して、95%信頼限界の値を求めたいのですが、どのようにすればよいでしょうか?

補足日時:2009/05/12 10:57
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q単回帰分析でも決定係数を導くのでしょうか?

単回帰分析でも決定係数を導くのでしょうか?

Aベストアンサー

 決定係数って、いわゆるR2ってやつですよね。求めることができます。

Qべき乗関数の回帰式の95%信頼区間

モデル式としてべき乗関数[Y=a*X^b]を用いて回帰分析を行なっています。回帰式の95%信頼区間を求めたいのですが、計算できません。ご教授願えますか?

これまでやったことを示します。線形回帰の95%信頼区間の計算をRを使って行なうことができるので、べき乗関数を対数変換し、直線回帰を行ないました。ここで得られた95%信頼区間を表す式の切片、傾きから実数空間に戻して再計算したのですが、正しい結果が得られませんでした。

使用しているサンプルは下記の通りです。

X     Y
0.844  2.041873793
0.83  5.242322324
0.743  3.123938274
0.69  1.288763738
0.62  4.60944809
0.42  0.178478931
0.313  0.743454646
0.304  0.87
0.27  0.857248415
0.086  0.171183408

よろしくお願い致します。

Aベストアンサー

せめて、
0.844,2.041873793
のように、コンマ付きで入力してください。コピペで入力するのが大変になります。
で、とりあえず、べき乗回帰はできました。

a<-rbind(
c(0.844 ,2.041873793),
c(0.83 ,5.242322324),
c(0.743 ,3.123938274),
c(0.69 ,1.288763738),
c(0.62 ,4.60944809),
c(0.42 ,0.178478931),
c(0.313 ,0.743454646),
c(0.304 ,0.87),
c(0.27 ,0.857248415),
c(0.086 ,0.171183408)
)
b<-log(a)
res<-lm(b[,2]~b[,1])
summary(res)
exp(res$coef[1]+b[,1]*res$coef[2])
a[,2]

とやってみました。
> res$coef
(Intercept) b[, 1]
1.229917 1.306564

> summary(res)

Call:
lm(formula = b[, 2] ~ b[, 1])

Residuals:
Min 1Q Median 3Q Max
-1.8198 -0.2230 0.1986 0.3194 0.9228

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.2299 0.4097 3.002 0.01701 *
b[, 1] 1.3066 0.3776 3.460 0.00856 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.8074 on 8 degrees of freedom
Multiple R-Squared: 0.5995, Adjusted R-squared: 0.5494
F-statistic: 11.97 on 1 and 8 DF, p-value: 0.008564

> exp(res$coef[1]+b[,1]*res$coef[2])
[1] 2.7409922 2.6817387 2.3205168 2.1066486 1.8318610 1.1012783 0.7499673 0.7219169 0.6182816 0.1386755
> a[,2]
[1] 2.0418738 5.2423223 3.1239383 1.2887637 4.6094481 0.1784789 0.7434546 0.8700000 0.8572484 0.1711834


95%信頼区間は・・・どうやるんでしたっけ。P値見た限りでは、切片も係数も、使い物になってますが・・・

せめて、
0.844,2.041873793
のように、コンマ付きで入力してください。コピペで入力するのが大変になります。
で、とりあえず、べき乗回帰はできました。

a<-rbind(
c(0.844 ,2.041873793),
c(0.83 ,5.242322324),
c(0.743 ,3.123938274),
c(0.69 ,1.288763738),
c(0.62 ,4.60944809),
c(0.42 ,0.178478931),
c(0.313 ,0.743454646),
c(0.304 ,0.87),
c(0.27 ,0.857248415),
c(0.086 ,0.171183408)
)
b<-log(a)
res<-lm(b[,2]~b[,1])
summary(res)
exp(res$coef[1]+b[,1]*res$coef[2])
a[,...続きを読む

Qロジスティック回帰式についての相関係数や決定係数?

ロジスティック回帰分析についても相関係数や決定係数というのはあるのでしょうか?

Aベストアンサー

回帰分析というのは、ある(未知のパラメータを含む)関数をデータに当てはめ(fittingし)て最適なパラメータを決定し、その(パラメータに具体的な値が代入された)関数でデータの変動を説明しよう、というもの。
相関係数は、正確に言えば、実測値とfittingされた関数による予測値との間の相関係数、ということです。もちろん、当てはめた関数が何であろうが計算できます。
決定係数とは、fittingによってデータの変動がどれだけ説明できたか、ということを表していて、寄与率とも言います。もちろん、計算は出来ますが、説明できない変動がどれだけ残っているか(残差の標準偏差)を評価尺度として使う方が実用的だと思うなあ。

Q統計学 母平均の95(90)%信頼区間の求め方

↓の問題の解き方と回答が分かる方いませんか?
参考書を読んでもチンプンカンプンで非常に困っています。。
宜しくお願いします。

標本A{10・6・12・6・10・10}
標本B{9・3・11・2・5・6}
(1)標本Aの母平均の95%信頼区間
(2)標本Bの母平均の90%信頼区間
*条件:t分布を使って解く

Aベストアンサー

標本Aについて,

平均=9.6,標準偏差=2.19,標本の大きさ=6,自由度=5

手順1.sqrt(標準偏差/自由度)を計算する。
手順2.自由度5,有意水準95%の値をt分布表から読み取る(この場合は2.571)。
手順3.±2.571*(手順1で計算した値)を計算する。
手順4.平均±(手順3で計算した値)を計算する。

手順4で計算した値が質問されている答えになるはずです。標本Bの場合も同様の手順でできますが,有意水準が90%なので値を読み取る際に注意してください。

Q回帰分析で「有意な相関がある」という言葉はあり得るのか

 回帰分析(単回帰、重回帰)において、例えば単回帰では「2つの間には有意な正の相関関係が認められる」という日本語はあり得るのでしょうか。そもそも、回帰分析において相関関係の有意性を検定する検定方法というものが存在するのでしょうか。または、相関係数や決定係数で判断するしかない(例えばr2が0.8以上なら精度が高い)のでしょうか。
 また、回帰式や回帰係数の有意性の検定といわれているものは母集団に対する検定ということですので、今回の質問の答えに当てはまらないと考えていますが、この考えは合っているのでしょうか。

Aベストアンサー

#1です。補足します。

> 新たな疑問ですが、t検定とは回帰係数の有意性の検定を指すのでしょうか。

前回の回答にも書きましたが、係数の推定値は、少なくとも漸近的には正規分布します。また、分散の推定量は漸近的にχ^2分布しますので、t検定を行うことが出来ます。

> 回帰式自体を分散分析によってF値から検定する方法でも同じことなのでしょうか。

回帰式自体の検定を行うと、回帰係数一つ一つに対してではなく、回帰係数全体の検定を行うことになります。したがってt検定と同じではありません。

> 説明変数を増やせば決定係数値は上がりますが、自由度修正済み決定係数であれば問題はない

R^2 は、関数のフィットの良さの指標で、工学では屡々用いられるようであり、あまりこのような議論にはなじみません。
実は、自由度修正済み決定係数でもあまり問題は解消されていませんし、新たな問題(R^2が負になり得る)も発生します。更に問題なのは、この自由度修正の項の理論的な基礎付けがかなり弱いという点です。
研究の場では、普通はモデル選択は、AICまたはBICと呼ばれる情報量基準を用いて行われます。

> 回帰分析の場合、有意性の評価のみではなく決定係数との評価が必要だと考えますがいかがでしょうか。

関心が係数の大きさであれば、そのような評価は無用です。
例えば最小自乗法で
y = b0 + b1 x1 + b2 x2 + u
というモデルが正しいモデルであったが、
y = a0 + a1 x1 + v
というモデルを推定したとします。ここで、最小自乗法で通常おかれる仮定から x1 と v は無相関であったとします。
このとき a1 と b1 は一致します(ただし分散の推定量は x2 によって影響を受けます)が、R^2 は x2 の分だけ小さくなります。
したがって、R^2 がどうであれ係数の推定値は影響を受けないことが分かります。

もし x1 と v が無相関でなかったとしても、操作変数法や GMM といった方法を用いることによって、同様なことが出来ます。

#1です。補足します。

> 新たな疑問ですが、t検定とは回帰係数の有意性の検定を指すのでしょうか。

前回の回答にも書きましたが、係数の推定値は、少なくとも漸近的には正規分布します。また、分散の推定量は漸近的にχ^2分布しますので、t検定を行うことが出来ます。

> 回帰式自体を分散分析によってF値から検定する方法でも同じことなのでしょうか。

回帰式自体の検定を行うと、回帰係数一つ一つに対してではなく、回帰係数全体の検定を行うことになります。したがってt検定と同じではありません...続きを読む

Q検定の有意水準・95%信頼区間の質問

例えば、ある行為のあとに血圧が下がるという仮説を立てて研究するとします。

そして、対応のあるt検定を行います。(正規分布を仮定できたとして)

前後に差がないという帰無仮説のもとに、そのときのt統計量を算出し、自由度n-1のt分布の確率密度関数を積分したP値が棄却閾か?95%信頼区間か?で判定を有意差ありor有意差なしとします。

しかし、これは「前後の母平均に差があるかどうか?」の確率ですよね?【どの程度の差】なのかは知ることができませんよね?
所詮、差があるかどうかを2択で言い切っているだけですよね?

どの程度の差なのか?ということを知るためにはどうしたらよいのでしょうか?また、その差は【有効的?】?かどうかどうやって判定(判断)したらよいのでしょうか?

(自分の考えとして)
95%信頼区間の上限・下限の値を母平均にプラスマイナスして算出して、?!あれ? わかりません。
?もしかして、どの程度の差なのか?は標準偏差で判断するのかな?

よくわかりません。どうか教えてください。お願いします。

Aベストアンサー

行為前の平均値=(132, 140, 132, 128, 123, 141)
行為後の平均値=(110, 127, 122, 114, 111, 128)

これを検定すると,

t統計量 = 8.2687, 自由度 = 5, p値 = 0.000422
差の平均値=14 95%信頼区間=[9.647688, 18.352312]

という結果が得られますが,この"差の平均値"というのは行為前と行為後とでの血圧差の平均値なわけです。この14という差の平均値が9.64から18.35の区間に存在する確率が95%ということです。

Q重回帰分析について

お世話になります。

階層的重回帰分析において、決定係数が0.253→0.431→0.468とあがっていきます。

そこで、最後の0.468という決定係数は、まだ説明できる要因が他にもあるということでしょうか?段階的に説明力の向上はあると言えると思いますが、他にも「関係があると否定できない」項目があることについて言及する必要はありますか?

全ての決定係数はp<0.001となっています。
どなたか詳しい方、お願いします。

Aベストアンサー

 ご研究だと、指導される方を無視するのは、マナー違反なので、回答ではなく独り言。

>説明変数の設定がそもそも不十分という解釈でよろしいのでしょうか?
 社会現象だと、説明できないことはたくさんあります。株価の決定係数が1.00なら、全員が株というバクチに走ります。変動の原因が全て説明できるのですから。
設定が不十分というより、分からない、想定できていない説明変数がまだまだある、ということです。

 私の場合、出生率は、単相関で0.6の決定係数を得られたので、これより重要な要因は無い、と結論しました。しかし、死亡率は、0.3程度しかありませんでした。すなわち、まだまだ推定できていない要因がある、ということです。しかし、その要因に関する数字が入手困難で、進んでいません。

 なお、回帰分析の場合、回帰式の説明変数の係数の意味もお考え下さい。

Q最尤法で回帰直線の傾きと切片を求めるには?

今回、業務で初めて回帰直線を扱うことになりました。

大昔に最小二乗法で回帰直線を描くプログラムを書いたのですが、今回はお客様より最尤法を適用できませんか?と言われています。
インターネットで調べてみたのですが、中々思うような情報を得ることが出来ません。

最尤法で回帰直線の傾きと切片を求める方法又は、プログラムが説明されているwebサイトや書籍はありませんでしょうか?
ちなみに、最尤法自身もあまり理解できていませんので、こちらの参考文献も教えていただけるとうれしいです。
統計については、初心者ですので、的外れであればご指摘ください。

Aベストアンサー

最尤法とは最も尤もらしいパラメータを求める方法です。
尤もらしい度合いを尤度といい、確率分布で表します。

簡単な例で、正規分布の場合

p=Aexp((f(x)-y)^2/2σ)
 Aは規格化定数、σは分散 f(x)は回帰式

あるyが与えられた時、その値が尤もらしいためには
回帰式f(x)のパラメータはなんですか?ということです。

与えられたデータの尤度が最大になるようにパラメータ
を計算しますが、通常は対数を取って対数尤度を最大化
します。この対数尤度は

 Σlog(p)=Σlog(A)-Σ(f(x)-y)^2/2σ
 Σはデータに対して取る

となり、定数項を除き、σが一定(データに依存しない)とすると
これを最大化するのは第二項を最小化することになり、通常の
最小二乗法と同じになります。

正規分布以外の場合にはこの限りではありません。これは
想定している確率分布に依存します。正規の場合には線形方程式
として解けますが通常は非線形の最適化を行ないます。

参考サイトを以下に挙げて起きます
http://hosho.ees.hokudai.ac.jp/~kubo/ce/IntroductionMle.html
http://www.is.titech.ac.jp/~shimo/class/doc/lec20021121.pdf
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc013/168.html

最尤法 回帰でググレば他にも色々でてきますよ。

最尤法とは最も尤もらしいパラメータを求める方法です。
尤もらしい度合いを尤度といい、確率分布で表します。

簡単な例で、正規分布の場合

p=Aexp((f(x)-y)^2/2σ)
 Aは規格化定数、σは分散 f(x)は回帰式

あるyが与えられた時、その値が尤もらしいためには
回帰式f(x)のパラメータはなんですか?ということです。

与えられたデータの尤度が最大になるようにパラメータ
を計算しますが、通常は対数を取って対数尤度を最大化
します。この対数尤度は

 Σlog(p)=Σlog(A)-Σ(f(x)-y)^2/2σ
 Σ...続きを読む

Q回帰分析についてわかる方…

大学の授業で統計学の授業をとっているのですが、
レポートの課題が回帰分析でした。
回帰分析までやったのですが回帰分析の妥当性評価の
ところがやり方がわからず、頭が混乱してしまいます。

妥当性評価で以下の3つのポイントをチェックしろと言われました
1、符号条件 2、x値 3、相関係数、決定係数
「符号条件」というのは各変数が直感的に正しく影響しているか?
ということらしいのですが…

これはつまり何をすればいいのでしょうか?
符号がマイナスだといけないのですか?

2番のx値というのは、どこをみればいいのでしょうか…

文章がわかりずらくてすみません。
わかる方、どうかお願いします。

Aベストアンサー

>符号がマイナスだといけないのですか?
例えば、消費額と所得額の関係を分析する時は、
 (消費額) = a + b*(所得額) + 攪乱項
という回帰式を想定して、回帰分析を行う事ができます。
一般的には所得額が増加すれば、消費額も増加すると考えられるので、
符号条件は「b>0」となります。

一方、貯蓄額と消費額の関係を分析する時、
(貯蓄額) = a + b*(消費額) + 攪乱項
という回帰式を想定するなら、一般的に消費額が増加すれば、
その分、貯蓄に回す金額が減少すると考えられるので、
符号条件は「b<0」となります。

Q信頼度95%で有意差のある質問項目を選ぶ方法

顧客満足度調査で、5段階評価の質問項目が30問程度あります。
この30問について、上司から、グラフ化する際に「信頼度95%で有意差のある項目は、○印で明示。」してほしいと、依頼を受けました。
具体的に、どのようにして算出して、「信頼度95%で有意差のある項目」を選び出すか、わかりますか?
EXCELのこの関数を使って、この数値を代入して、とか、具体的に教えていただけると助かります。

Aベストアンサー

こんにちは。私は統計学のスペシャリストではありませんので、正確な回答はできません。
統計学のスペシャリストから、正確な回答が来るかもしれないので、回答をクローズしないようにしてくださいね。

>>上司から、グラフ化する際に「信頼度95%で有意差のある項目は、○印で明示。」してほしいと、依頼を受けました。
具体的な分析法や検定法の指定はありませんでしたか。または、これまでは貴社ではどのように顧客調査を分析してきましたか。サンプルサイズは存じませんが、5件法で30問あれば、様々な分析が可能です。

おそらく、カイ二乗検定でのことだと思います。SPSSなどを使うと簡単に結果を出せますが、
エクセルとなるとここでは説明しても理解に苦しむと思いますので、下記URLを参照してください。

http://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E6%A4%9C%E5%AE%9A
http://imnstir.blogspot.jp/2012/02/excel.html
http://wwwhum.meijo-u.ac.jp/labs/hh002/excel/content/kaitool.html

こんにちは。私は統計学のスペシャリストではありませんので、正確な回答はできません。
統計学のスペシャリストから、正確な回答が来るかもしれないので、回答をクローズしないようにしてくださいね。

>>上司から、グラフ化する際に「信頼度95%で有意差のある項目は、○印で明示。」してほしいと、依頼を受けました。
具体的な分析法や検定法の指定はありませんでしたか。または、これまでは貴社ではどのように顧客調査を分析してきましたか。サンプルサイズは存じませんが、5件法で30問あれば、様々な分析...続きを読む


人気Q&Aランキング

おすすめ情報