ママのスキンケアのお悩みにおすすめアイテム

最小二乗平均について調べていますが書いたものが見当たりません。
最小二乗平均とは何かお教え頂けないでしょうか。

A 回答 (10件)

#3です。



> 最小二乗平均とは、どいうことを言っているものなの?

ネットをググれば、出てくると思いますが、

最小二乗平均・調整平均とは、『線形モデル』や『共分散分析』によって各要因の効果を推定したのち、目的の要因以外の要因の影響(共変量)を差し引いた残差の平方和が最小となるように求められる平均のこと。水準内の繰り返し数が等しい場合は単純平均に等しく、水準内の繰り返し数が不揃いの場合は単純平均とは値が異なり、繰り返し数の不揃いを調整した値となる。
治療効果実験において、処理群や対照群のサンプル数が退院や死亡などで実験開始時と異なる場合は、実験結果に見かけの効果が出るため、キチンと調整を行った値を示さないと査読は通らない。
    • good
    • 2
この回答へのお礼

心より厚く御礼申し上げます。
大切に印刷保存させて頂きます。
有難うございます。

お礼日時:2017/12/07 14:09

#3です。



まず、#1、#2のリンク先を改めて見たところ、全くデタラメですね。信じると大変なことになります。回答者も最小二乗平均を知らずにリンクしていますね。

「R」は、AT&Tベル研究所で開発されたスクリプト型(プログラムを組んで動かす)統計ソフトです。AT&Tの時代は「S」と呼ばれていました。SはStatistics(統計)の頭文字です。Sはその後商用化されたため、世界中の有志がR(アルファベット順でSの前)を作って運用しています。Rはフリーのソフトです。ただし、Rはプログラムの知識が無いと扱えません。マウスで操作するような統計ソフトではありません。統計屋は大抵はRを使います。機械学習屋にはPython派もいます。
Rの解説書は「Rによる」などでAmazonで検索すれば、山のように出てきますので、好みで選んでください。

一方、最小二乗平均ですが、それだけでは一冊の本は書けませんので、解説は、何かの本の中に書いてあるのを見つけなければなりません。
最小二乗平均は調整平均とも言います。生物・医学・製薬関係で主に使用されることから、それらの分野の本から、索引で「最小二乗平均」「調整平均」「調整された平均」「調整済み平均」「調整された効果」を探せば見つかります。そこで、私の蔵書の中から、そうやって見つけた本を紹介します。が、決してこれだけではないと思います。

①野間口謙太郎ほか訳、『一般線形モデルによる生物科学のための現代統計学―あなたの実験をどのように解析するか』共立出版、122ページから
②浜田知久馬著、『新版・学会・論文発表のための統計学』真興交易(株)医書出版部、190ページから

②では、私が#8で指摘したようなロジスティック回帰を使った事例が見られます。ケースコントロール研究の場合は一般的には計量値ではなく効果ありなしの発生比率(オッズ比)を使います。②では、そのような事例を見ることができます。また、レフェリーからこんな査読意見が付いた時は、こう対処すると良いというようなノウハウが書いてあるので、それが参考になります。

私が#7で示したスクリプトは計量値用でしたが、計数値でやるときのスクリプトも、ネットで探せば出てくるでしょう。それにしても(製薬?)メーカーに問い合わせても、誰も分からないというのはヘンですね。営業マンから研究部門に問い合わせてもらえば、誰か助けてくれる人が出てきそうな気がします。
    • good
    • 1
この回答へのお礼

本当に有難うございます。
心より御礼申し上げます。
製薬会社では、恐らく研究開発部門でないとわからないのが実情のようです。
お陰様でどのように勉強を始めていくかわかったような気がいたします。
最後にひとつお教え頂けないでしょうか。
最小二乗平均とは、どいうことを言っているものなのでしょうか。
どうぞ宜しくお願い申し上げます。

お礼日時:2017/12/07 11:31

#3です。



薬効などの実験では、途中の被験者の脱落(退院や死亡)のために、サンプル数が不揃いとなることが多いです。実験開始時の平均と比較するために、最小二乗平均を用いるのは妥当です。

最小二乗平均には公式というような式はありません。ネットで探してもたぶん出てきません。求める方法は#3に書いたようにソルバーなどを使ってグリッドサーチ(刻んで調べる方法)するしかないと思います。ただし、シンプルなケース(回帰モデルが単純な場合)は加減乗除で求められるので、そのような事例は散見されます。

さて、通常の平均は最尤法という方法を用いて求められ、母分布がガウス分布の場合は、尤度関数を微分して0と置けば、ご存じの1/nΣxという解というか式が出てきます。

しかし、最小二乗平均は、AクラスBクラスのような離散値が入ってきて不連続になりますので微分不可能になります。そのため、偏差平方和の最小値を与えるμを『探索的』に求めるしかないのです。

お問い合わせの論文では、標準誤差(Standard Error:SE)や信頼限界(Confidence Limits:CL)まで求めてあることから、私はRか高度な統計ソフトを使って求めたのだろうと思います。#7に示したRの出力には、まさにそれらが計算されています。ちなみにdfは自由度です。

論文を追試しようとすると、生データが必要になります。

疑問もあります。『変化率』を線形式(線形結合)に乗せている点です(最小二乗平均を求めるためには、まずは回帰や共分散分析によって線形式のモデルを立てなければならないからです)。通常『率』は幾何平均をとるべきですので、一旦対数変換あるいはロジット変換してから線形の計算に掛けなければいけません。かの論文はそれをやっていますか。

ご質問者が結果に疑問を持ったをしたら、もしかすると、これに起因しているのかもしれません。
    • good
    • 1
この回答へのお礼

本当に有難うございます。
各メーカーに問い合わせても全く誰も答えられないようです。
こんなに複雑なものとは知りませんでした。
Rというのは、何のことでしょうか。
これらについて勉強したいのですが
参考書か何かお教え頂けないでしょうか。
何回もお尋ねしまして誠に恐縮ですが
どうぞ宜しくお願い申し上げます。

お礼日時:2017/12/05 11:31

#3です。

Rのスクリプトも載せておきます。

ただし、ライブラリ:lsmeans が必要です。

#################################

# 一般的なLSMeans

rm(list=ls())

Input <- c("
Classroom Sex Height
A Male 151
A Male 150
A Male 152
A Male 149
A Female 155
A Female 156
A Female 157
A Female 158
B Male 151
B Male 150
B Female 155
B Female 156
B Female 157
B Female 158
B Female 156
B Female 157
")
Data <- read.table(textConnection(Input),header=TRUE)


# データが不揃いなのを確認する
addmargins(table(Data[,1],Data[,2]))

# クラス毎の平均値
sapply(split(Data,Data$Classroom),function(x){mean(x$Height)})


# 最小二乗平均を求める
library(lsmeans)

model = lm(Height ~ Classroom + Sex,data = Data)

# クラス毎の平均
lsmeans(model,"Classroom")

# 男女毎の平均
lsmeans(model,"Sex")

#################################

結果は、

クラス毎の平均

$`Classroom lsmeans`
Classroom lsmean SE df lower.CL upper.CL
A 153.5 0.3922323 13 152.6526 154.3474
B 153.5 0.4193139 13 152.5941 154.4059

男女毎の平均

$`Sex lsmeans`
Sex lsmean SE df lower.CL upper.CL
Female 156.5 0.3554907 13 155.7320 157.2680
Male 150.5 0.4629100 13 149.4999 151.5001
    • good
    • 1
この回答へのお礼

詳しくお教え下さり本当に有難うございます。
最小二乗平均を出す方法、公式のようなものがありましたらお教え頂けないでしょうか。
私がわかりませんのは、下記の文章のなかの最小二乗平均値を
どの様にして出したのかがわかりません。
推測で結構でございますのでお教え頂けないでしょうか。
基本的なことで恐縮でございますが宜しくお願い申し上げます。
「12カ月目の腰椎(L2-L4)BMDのベースラインからの変化率(最小二乗平均値±標準誤差、共分散分析による推定値)は、ボンビバ経口群で5.168±0.267%、ボンビバ静注群で5.396±0.263%であった。ボンビバ経口群とボンビバ静注群の変化率(最小二乗平均値)の差(95%信頼区間)は−0.228%(−0.967~0.510%)であり、その信頼区間下限値は非劣性限界値とした−1.6%を上回っていたことから、
ボンビバ経口群のボンビバ静注群に対する非劣性が示された」

お礼日時:2017/12/04 10:31

#3です。



-3を引くのだから、いいのか。
    • good
    • 0

#3です。



±3の符号を間違えていました。

偏差の式の符号を逆にして下さい。
    • good
    • 0

#3です。



今回は、たまたま同じ値になってしまったということです。
常に同じ値になるわけではありません。
    • good
    • 0

企業でSQCを推進する立場の者です。

博士(工学)です。

これまでの回答は、具体性に欠けますので、具体的にご説明したいと思います。

今回の数値例は、
http://rcompanion.org/handbook/G_05.html
R handbook 『What are Least Square Means?』を使いました。

このサイトはRの使い方をメインに説明しているので、ご質問者には向かないかもしれません。

さてこのサイトには、次のような問題が出ています。
小学校の低学年に2学級があります。各組の身長の、平均と最小二乗平均を求めなさい。

Classroom Sex Height
A Male 151
A Male 150
A Male 152
A Male 149
A Female 155
A Female 156
A Female 157
A Female 158
B Male 151
B Male 150
B Female 155
B Female 156
B Female 157
B Female 158
B Female 156
B Female 157

平均は、単純に計算でき、
A組が153.5
B組が155.0
全体平均は154.25です。

では、次に最小二乗平均を求めます。
まず、男女差を計算します。各々の平均は次のようになります。
男 150.5
女 156.5
ここでは示しませんが、クロス集計表を作ってキチンと確認しましたが、クラス毎に上記の値となりますので、交互作用は無いようです(リンク先の例では交互作用モデルにしています)。

男女には±3cmの開きがあります。

さて、ここからは、エクセルのソルバーがあると便利なんですが、
A組の仮平均を例えば上記の値153.5、
B組の仮平均を例えば上記の値155.0として、
各観測値から、男子ならー3、女子なら+3、そして各仮平均を引きます。

(偏差)=(観測値)±3-(その組の仮平均)

次に、偏差平方和を求め、それが最小になるように仮平均を最適化します。
ここをエクセルのソルバーでやるのです。

その結果は、
A組の最小二乗平均は153.5
B組の最小二乗平均は153.5となり、2組とも同じ値になりました。
前出のリンク先はRでやっており、lsmeanとして同じ値が示されています。

このように、最小2乗平均は、クラス間と男女間のように共変量があるとき、男子と女子の観測数が異なっていても、クラス間の差のみを明確にしたいときに用います。
単純な平均とは、明らかに違いますよね。

是非、エクセルのソルバーで確認してみて下さい。
    • good
    • 3

No.1です。


下記の説明でどうですか。
https://oshiete.goo.ne.jp/qa/767797.html
    • good
    • 0
この回答へのお礼

ご多用の中を本当に有難うございます。
あるxにおける最小二乗値によるyは、試験によりそれぞれ直線の式が
異なってくるのでいくつも出てくると思いますが、同じxに対する異なる最小二乗値の式で得られたyを平均することにより
ばらつきが少ないyがえられるということで宜しいでしょうか。
間違っていましたら申し訳ありませんが、お教え頂けないでしょうか。
どうぞ宜しくお願い申し上げます。

お礼日時:2017/11/30 08:36

とりあえず下記を読んで下さい。


https://sci-pursuit.com/math/statistics/least-sq …
    • good
    • 0
この回答へのお礼

有難うございます。
お教えいただきました内容は理解できました。
しかし平均というのがわかりません。
お教え頂けないでしょうか。

お礼日時:2017/11/29 12:33

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Q平均値と最小自乗平均値

いままで、なんとなくわかったつもりでいましたが、
いざ,自分が使おうとすると考え込んでしまって
どうすればいいのか、頭がゴチャゴチャしてきました・・・。
この二つの意味の違いと、どういう時に使い分けるのかを
教えてください。

Aベストアンサー

まず、補足要求させてください。
できたら、最小自乗平均値の定義を教えてください。

以下、推測に基づいて書いちゃいますが、

最小自乗平均値というのは、おそらく、
ある中央値みたいなのを1つ決めると、それと各データとの差の2乗を1個1個足し算した結果が最小になるということでは?
すると、要は、最小二乗法で近似直線を求めるのと同じ考え方になりますね。

さらに、その仮定に基づいて書きますと、
正規分布(ガウス分布)か、あるいはそうでなくても、とにかく左右対称な分布ならば、単純平均値と最小自乗平均値は正確に同じ値になるはずです。

ところが、左右対称とは大きくかけ離れた分布であれば、単純平均値と最小自乗平均値は、かなり異なる値になるでしょうね。

単純平均値を用いずに、わざわざ最小自乗平均を用いるのはなぜか、というのが、ご質問の趣旨ですね?

要はこういうことなのでは?
単純平均値に対して±標準偏差を考えると、標準偏差の値が大きくなっちゃうじゃないですか。
最小自乗平均に対して±標準偏差を考えれば、当然、標準偏差の値が小さくて済みます。

ですから、例えば、あるもののばらつき許容を考えるときに、許容範囲を不必要なまでに広げる必要がなくなるというのが、最小自乗平均の利点だと思います。
というか、むしろ、最小自乗平均を使うほうが、工業的には便利そうですよね。

ただ、単純平均値も、データ全体のことを良く表している数値ですし、計算方法も万民が知っていて理解しやすいですから、捨てがたいのでしょうね。

まず、補足要求させてください。
できたら、最小自乗平均値の定義を教えてください。

以下、推測に基づいて書いちゃいますが、

最小自乗平均値というのは、おそらく、
ある中央値みたいなのを1つ決めると、それと各データとの差の2乗を1個1個足し算した結果が最小になるということでは?
すると、要は、最小二乗法で近似直線を求めるのと同じ考え方になりますね。

さらに、その仮定に基づいて書きますと、
正規分布(ガウス分布)か、あるいはそうでなくても、とにかく左右対称な分布ならば、単...続きを読む

QExcelで平方2乗平均を計算するには

Excel2003で
平方2乗平均を計算するにはどうしたら良いのでしょうか?
手っ取り早い方法を教えて下さい。
よろしくお願い致します。

Aベストアンサー

訂正。

誤:平方2乗平均は、各要素を2乗した物の和の平方根です。
正:平方2乗平均は、各要素を2乗した物の和を要素数で割った物の平方根です。

従って、A1~A30の30個のセルの平方2乗平均は以下の式で求めます。
=SQRT(SUMSQ(A1:A30)/COUNT(A1:A30))

平方和を要素数で割るのを忘れてました。

Q対数変換する意味?

私は数学が苦手な文系大学生です。最近「地域分析」という本を読んでいるのですが、たびたび数式を「対数変換すると・・・」と言う風に話が進みます。対数変換をすることの意味がわからないので内容が理解できません。

まず、対数変換とは何なのか?対数変換を行なうと何がどのように変わるのでしょうか?
また、一般的に対数変換とはどのような目的で行なわれるのでしょうか?

ということを文系の学生にわかりやすく教えていただけないでしょうか。
対数変換の内容を理解していないため、質問が的を得ていないかもしれませんが、よろしくお願いします。(また、ここで説明できるような内容でなければ、その旨をお伝えください。)

Aベストアンサー

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

このように表現すると、正の数値で1以下の小数から
万や億などの非常に大きい値に散らばる数値サンプルを
整理したり表現するのに非常に便利です。

また、対数にしてグラフを作ると、上記のように非常に
大きな数(または0.00000・・・・のように非常に小さい数)
を限られた紙面上でプロットする事ができます。
もしそのプロットした結果が直線になった場合、
その直線の傾きでサンプルの近似式を導き出すこともできます。

具体的例を挙げると、身近なものではpH値。
これはある液体の単位量あたりどのくらい水素イオンが
含まれるかを対数表現したものです。
(厳密には、モル濃度で表した水素イオン濃度の逆数の常用対数)

まとめると、対数は小数から数万・億などの広範囲に散らばる
数値を整理するために使われる道具とお考えになられたら
良いと思います。

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

この...続きを読む

Qペアワイズとは?

論文でためにペアワイズpair-wiseという単語を見かけるのですが、
これはどういう意味なのでしょうか?
感覚的には「対を持った」みたいな意味だと思うのですが、もう少し具体的な使い方について教えて下さい。

Aベストアンサー

pair-wise : 直訳は「ペアごとに」だと思います。
ペアが複数あり、ある命題がどのペアでも成立つときに使うのでしょう。

Q共分散分析について教えてください

共分散分析は,どのような時に使うべきなのかや,
共変量が何なのかかいまいちよくわかりません.

また,3要因を手計算でするのは無謀でしょうか?

具体例をあげて教えていただけるとありがたいです.
よろしくお願いします.

Aベストアンサー

こんにちは.

共分散分析ですか…
分散分析は心理学や社会科学などでメジャーな分析法ですが,共分散分析は教科書によっては説明されていないいささかマイナーな手法ですね.

この教科書に説明されていないというのが問題でして,どんな計算原理で行われるかについては簡単ながらも説明されていますが,【実際の計算過程がよくわからない】ために,また,統計ソフトに必ずしも実装されていないことが多いなどいまいち使い勝手が悪い手法だと常々感じています.

> また,3要因を手計算でするのは無謀でしょうか?

そのため,上の質問については,「具体的に計算式をどこかの本で見つけているのならばできるかもしれないけど,そもそもその計算式を発見できるのか?」と回答させていただきます.

石村貞夫『分散分析のはなし』,岩原信九郎『教育と心理のための推計学』に計算式が少しばかり説明されていますが,一要因(対応なし),一共変量のについての説明はされていますが,二要因,二共変量以上の場合には計算の原理が説明されている程度で,具体的な計算過程については自分で組み立てないといけません.自分で組み立てるためには,分散分析,回帰分析などの数理的な側面を理解していなければなりませんのでかなり難しいと思います.普段統計解析法を数理的な観点から勉強していない人にとっては正直無謀のような気もします(私もまだまだ数理統計学は勉強中なので,途中で止まってしまいます…).
さらにはこれらの本には「対応なし」についてのみ扱っており,「対応あり」については触れられていませんので,もしお望みの三要因の共分散分析が「対応あり要因」を含むものならば,すぐに共分散分析を使わなければならないのであれば諦められた方がよいと思います.なんとか,共分散分析が使える統計ソフトを使いましょう.

ひとまず,共分散分析の基本的な考え方についてだけ,ごく簡単に説明します.共分散分析は「回帰分析+分散分析」の分析法だとよくいわれます.このため,共分散分析を使うためには,分散分析の他に【(重)回帰分析も理解していなければなりません】.ここでは質問者さんが(重)回帰分析を理解されていることを前提として話を進めます.

とりあえず説明データとして,以下のような,2×2の分散分析データ,共変量が二つというもので説明します.

独立変数(原因);A要因(a1,a2水準),B要因(b1,b2水準)
従属変数(結果):Y
共変量:Z1,Z2

このデータでふつうの分散分析を行うのであれば,共変量のZ1,Z2を無視して「A&B→Y」という二要因分散分析を行うでしょう.
分散分析は,そのデータを収集する時には「A」「B」要因以外の要因(剰余変数)からは大きな影響が出ないような形で,データ収集をしなければなりません(例えば,Yが学力データであるならば,「学習場所(A)」「教科(B)」以外は統制されたものでなければなりません).しかし,データによっては別の要因の影響が大きい,というものもあります(学力はその人本来が持っている知能に影響を受けますが,「A」「B」に知能要因が含まれていない場合は,知能要因の影響はない形,つまりは知能はほぼ一定の人から被調査者に協力してもらわなければなりません).そのようなデータ収集はいわゆる失敗なのですが,しかし,何とか統計学的にそのような剰余変数の影響を(回帰分析の力を借りて)処理しよう,というのが共分散分析です.

簡単に言えば,そのままでは従属変数であるYが(剰余変数の影響を受け)データとしては不適切なので,回帰分析をすることでYをY’に修正して,その修正値であるY’に対して分散分析を行う……これが共分散分析といえます.

このことから,共分散分析は計算上,大きく二つの段階に分かれます.

1)(重)回帰分析による従属変数の値の修正

(重)回帰分析も分散分析同様に,原因-結果の観点でデータ分析を行いますが,この修正作業の段階においては

 共変量(原因)→ 分散分析の従属変数(結果)

として,重回帰分析モデルを作ります.先の例で言えば,本来は平均であるIQ100の人たちを被調査者全員とした方が望ましいのですが,ある人はIQ120,IQ90などのようにバラバラになっている場合はモデルを作り,本来IQ120(90)の人がIQ100であった場合のデータ……のように,修正を施せるようなモデル式を作るわけです.

ただし,この修正のためのモデル式がデータによっては有効ではない場合もありますので(実は,学力は知能の影響を受けていない,など),共分散分析においてその回帰分析モデル式が有効であるかを調べなければなりません.kのため,(重)回帰分析の重要な数値である「回帰係数」が有効であるかとして「回帰係数の平行性の検定」「回帰係数の有意性の検定」などを調べなければなりません.これで有効でなければ,回帰分析による修正が行えず,単にふつうの分散分析を行うことになります(詳しくは,先に挙げた参考資料を見てください).

2)修正値に対する分散分析

 この過程は【基本的には】分散分析と同様で,結果も通常の分散分析とほぼ同じような感じで出力されます.「A要因の効果」「Bの要因の効果」「A×Bの交互作用」などです.共分散分析では,これに加えて「共変量の効果」という項目も併せて算出されます.

こんにちは.

共分散分析ですか…
分散分析は心理学や社会科学などでメジャーな分析法ですが,共分散分析は教科書によっては説明されていないいささかマイナーな手法ですね.

この教科書に説明されていないというのが問題でして,どんな計算原理で行われるかについては簡単ながらも説明されていますが,【実際の計算過程がよくわからない】ために,また,統計ソフトに必ずしも実装されていないことが多いなどいまいち使い勝手が悪い手法だと常々感じています.

> また,3要因を手計算でするのは無謀で...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Q統計学に良く用いられる「個体内変動」と「個体間変動」について

統計学に良く用いられる「個体内変動」と「個体間変動」の意味が分からなくて困っています、「個体内変動」と「個体間変動」とはいったい何なんでしょうか?知識をお持ちの方よろしくお願いします。

Aベストアンサー

車を購入して運転するとします。
毎日同じように運転したつもりでも、道路の混雑状況や荷物の積み込み具合で燃費が変わってしまいます。これを個体内変動といいます。

ある日車を買い替えて、あろうことか全く同じ車を買ったとします。同一車種だから燃費は当然同じだろうと思って運転したら、、、微妙に違います。同じ車種で同じように運転したつもりなのに、前の車と比べてちょっと悪くなってる。あるいは、荷物を多く積んだ日に限って前の車より大幅に悪くなってる。このように、同じ種類の別固体を同じように使ったつもりでも、何がしかの原因で違ってしまうことを個体間変動といいます。個体差とか、よく言いますがあれと同じです。

メーカーの工場では、他に(数学上の正式な名前は知りませんが)ロット間変動という言葉もあります。前回、エンジンの材料でA社の材料を購入して作った車5000台と、今回B社の同じ筈の材料を購入して作った車5000台とで、燃費に差が出たとします。5000台(数字はテキトーです)のひとかたまりを1ロットと呼びますが、この差をロット間変動といいます。固体内→個体間→ロット間、、、とだんだん話が大きくなっていきます。

車を購入して運転するとします。
毎日同じように運転したつもりでも、道路の混雑状況や荷物の積み込み具合で燃費が変わってしまいます。これを個体内変動といいます。

ある日車を買い替えて、あろうことか全く同じ車を買ったとします。同一車種だから燃費は当然同じだろうと思って運転したら、、、微妙に違います。同じ車種で同じように運転したつもりなのに、前の車と比べてちょっと悪くなってる。あるいは、荷物を多く積んだ日に限って前の車より大幅に悪くなってる。このように、同じ種類の別固体を同じよ...続きを読む

Q回帰分析の時に対数をとる意味は?

現在、計量経済学の授業で、
回帰分析、最小二乗法について勉強しているのですが、
たまに先生がデータの対数をとって回帰分析をするのですが、
どうして対数をとるのかよくわからないんです。

一応、弾力性を一定とする時や、非線形の関数を
線形にする時に使うらしいことまでは、
わかっているのですが
(でも、それすら怪しいです。間違っていたら訂正してください…)

どうして、対数をとるとそのようなことができるのか
よくわからないんです。

ご存知の方がいらっしゃれば、アドバイスお願いします。
参考書籍・参考サイト等の紹介でもかまいません。

Aベストアンサー

追加の質問の件ですが,ある回帰式について,その説明変数でよいか,その関数形でよいか,ということを統計的に検証する手続きは,特定化の検定(specification test)として確立しています。

よく用いられる例が,Hausman検定やRamseyのRESET検定です。両者は,対立仮説などが異なるので,何を目的とするかで一長一短があり使い分けられます。

ただし,そうした検定はそれなりに難しい(大標本の検定なので,確率極限 plim の概念が必要)ので,学部の4単位くらいの内容ではそこまで至らないでしょう。学部の上級講義か,大学院の修士課程で学ぶ内容ですね。ちゃんとした教科書でも,かなり後の方に説明してある検定です。

ただ,対数をとったモデルと,とらないモデル,どちらの方が望ましいかというだけだったら,上の一般的な定式化の検定よりもずっと簡単な問題で,より簡単なBox-Cox変換で十分です。これだと,入門的な教科書でも手短かに書いてあるでしょう。

なお,その先生の説明を直接聞いたわけではないですが,「対数をとれば,どんな非線形の関係でも,線形回帰式として推定できる」と思われたのなら,誤解を招く説明ですね。

実際,対数をとるだけでは線形にならないような非線形の関係を推定する手法として,非線形最小2乗法とか一般化モーメント法(GMM)とかが用いられているんですからね。これらも,中級以上の教科書なら説明があるでしょう。

追加の質問の件ですが,ある回帰式について,その説明変数でよいか,その関数形でよいか,ということを統計的に検証する手続きは,特定化の検定(specification test)として確立しています。

よく用いられる例が,Hausman検定やRamseyのRESET検定です。両者は,対立仮説などが異なるので,何を目的とするかで一長一短があり使い分けられます。

ただし,そうした検定はそれなりに難しい(大標本の検定なので,確率極限 plim の概念が必要)ので,学部の4単位くらいの内容ではそこまで至らないでしょう。学部の...続きを読む

Qvehicleとcontrol

かなり初歩的な質問ですみません。
論文によく載っているvehicleとcontrolの違いは一体何なのでしょうか。
教えて下さい。
よろしくお願いします。

Aベストアンサー

論文そのものを参照していないので多分ですが・・・

ある処置、たとえば薬を投与してその効果を見る際には必ず薬を投与しない群を用意して、薬を投与した群と比較しなければなりません。この時薬を投与しない群がcontrol群です。
しかし、薬を投与するという手順そのもの、あるいは薬を溶かしている溶媒(オリーブ油などがよく使われます)が結果に影響する可能性を考える場合、薬を溶かしていない同じ溶媒を同じ手順で投与してcontrol群としなければなりません。この溶媒にあたるのがvehicleで、おそらく溶剤のみを投与した群をvehicle群と論文上で定義しているのではないでしょうか。従ってcontrol群の一種と考えることができます。

Q共分散分析(ANCOVA)で困っています

共分散分析(ANCOVA)で分からない点があり困っています.

 疫学研究系の国内誌に投稿したところ,査読者から,共分散分析のモデルについて再考すべしとの指摘がありました.

 要因A(体操教室の参加者,不参加者)が従属変数Y(握力の強さ:連続変数)に及ぼす影響について,共変量X(年齢,性別,教育年数,喫煙)を投入した共分散分析のモデルにより検討しようとしています.

 そこで質問です:

 ・質問(1) 共変量Xは,従属変数Yとじっさいに有意な相関関係にあるものしかモデルに投入できないのでしょうか?
 
 ・質問(2) 共変量Xのうち,要因Aと相関関係に有るもの,要因Aと相関関係に無いものの両方を混在させてモデルをつくることは妥当なのでしょうか?

 ・質問(3) 査読者から,共分散分析を実施する上での前提を確認することとの指摘がありました.共分散分析を実施するうえで必ずチェックしなければいけない点について分かりやすく教えてください.

 以上について,お教えいただければ幸いです.

Aベストアンサー

(1) そんなことはないと思います。モデルに入れて初めてはっきりする関係もありますよね。

(2) 要因と共変量に高い相関関係がある場合は注意が必要と思います。多重共線性で不安定なモデルになるかもしれません。例えば、Xと2Xを同時にモデルに入れてみるとどうなるか、想像してみてください。

(3) 誤差の正規性とかでしょうか。
要因の水準ごとに分散が異なっているのもまずそうですね。
これについては自信がないです。


人気Q&Aランキング