最小二乗平均につきまして

Question

最小二乗平均について調べていますが書いたものが見当たりません。
最小二乗平均とは何かお教え頂けないでしょうか。

kamiyasiro · Accepted Answer

#3です。

> 最小二乗平均とは、どいうことを言っているものなの?

ネットをググれば、出てくると思いますが、

最小二乗平均・調整平均とは、『線形モデル』や『共分散分析』によって各要因の効果を推定したのち、目的の要因以外の要因の影響（共変量）を差し引いた残差の平方和が最小となるように求められる平均のこと。水準内の繰り返し数が等しい場合は単純平均に等しく、水準内の繰り返し数が不揃いの場合は単純平均とは値が異なり、繰り返し数の不揃いを調整した値となる。
治療効果実験において、処理群や対照群のサンプル数が退院や死亡などで実験開始時と異なる場合は、実験結果に見かけの効果が出るため、キチンと調整を行った値を示さないと査読は通らない。

kamiyasiro · Answer

#3です。

まず、#1、#2のリンク先を改めて見たところ、全くデタラメですね。信じると大変なことになります。回答者も最小二乗平均を知らずにリンクしていますね。

「R」は、AT&Tベル研究所で開発されたスクリプト型（プログラムを組んで動かす）統計ソフトです。AT&Tの時代は「S」と呼ばれていました。SはStatistics（統計）の頭文字です。Sはその後商用化されたため、世界中の有志がR（アルファベット順でSの前）を作って運用しています。Rはフリーのソフトです。ただし、Rはプログラムの知識が無いと扱えません。マウスで操作するような統計ソフトではありません。統計屋は大抵はRを使います。機械学習屋にはPython派もいます。
Rの解説書は「Rによる」などでAmazonで検索すれば、山のように出てきますので、好みで選んでください。

一方、最小二乗平均ですが、それだけでは一冊の本は書けませんので、解説は、何かの本の中に書いてあるのを見つけなければなりません。
最小二乗平均は調整平均とも言います。生物・医学・製薬関係で主に使用されることから、それらの分野の本から、索引で「最小二乗平均」「調整平均」「調整された平均」「調整済み平均」「調整された効果」を探せば見つかります。そこで、私の蔵書の中から、そうやって見つけた本を紹介します。が、決してこれだけではないと思います。

①野間口謙太郎ほか訳、『一般線形モデルによる生物科学のための現代統計学―あなたの実験をどのように解析するか』共立出版、122ページから
②浜田知久馬著、『新版・学会・論文発表のための統計学』真興交易（株）医書出版部、190ページから

②では、私が#8で指摘したようなロジスティック回帰を使った事例が見られます。ケースコントロール研究の場合は一般的には計量値ではなく効果ありなしの発生比率（オッズ比）を使います。②では、そのような事例を見ることができます。また、レフェリーからこんな査読意見が付いた時は、こう対処すると良いというようなノウハウが書いてあるので、それが参考になります。

私が#7で示したスクリプトは計量値用でしたが、計数値でやるときのスクリプトも、ネットで探せば出てくるでしょう。それにしても（製薬？）メーカーに問い合わせても、誰も分からないというのはヘンですね。営業マンから研究部門に問い合わせてもらえば、誰か助けてくれる人が出てきそうな気がします。

kamiyasiro · Answer

#3です。

薬効などの実験では、途中の被験者の脱落（退院や死亡）のために、サンプル数が不揃いとなることが多いです。実験開始時の平均と比較するために、最小二乗平均を用いるのは妥当です。

最小二乗平均には公式というような式はありません。ネットで探してもたぶん出てきません。求める方法は#3に書いたようにソルバーなどを使ってグリッドサーチ（刻んで調べる方法）するしかないと思います。ただし、シンプルなケース（回帰モデルが単純な場合）は加減乗除で求められるので、そのような事例は散見されます。

さて、通常の平均は最尤法という方法を用いて求められ、母分布がガウス分布の場合は、尤度関数を微分して０と置けば、ご存じの1/nΣxという解というか式が出てきます。

しかし、最小二乗平均は、AクラスBクラスのような離散値が入ってきて不連続になりますので微分不可能になります。そのため、偏差平方和の最小値を与えるμを『探索的』に求めるしかないのです。

お問い合わせの論文では、標準誤差（Standard Error：SE）や信頼限界（Confidence Limits：CL）まで求めてあることから、私はRか高度な統計ソフトを使って求めたのだろうと思います。#7に示したRの出力には、まさにそれらが計算されています。ちなみにdfは自由度です。

論文を追試しようとすると、生データが必要になります。

疑問もあります。『変化率』を線形式（線形結合）に乗せている点です（最小二乗平均を求めるためには、まずは回帰や共分散分析によって線形式のモデルを立てなければならないからです）。通常『率』は幾何平均をとるべきですので、一旦対数変換あるいはロジット変換してから線形の計算に掛けなければいけません。かの論文はそれをやっていますか。

ご質問者が結果に疑問を持ったをしたら、もしかすると、これに起因しているのかもしれません。

kamiyasiro · Answer

#3です。Rのスクリプトも載せておきます。

ただし、ライブラリ：lsmeans　が必要です。

#################################

# 一般的なLSMeans

rm(list=ls())

Input <- c("
Classroom  Sex     Height
A          Male    151
A          Male    150
A          Male    152
A          Male    149
A          Female  155
A          Female  156
A          Female  157
A          Female  158
B          Male    151
B          Male    150
B          Female  155
B          Female  156
B          Female  157
B          Female  158
B          Female  156
B          Female  157
")
Data <- read.table(textConnection(Input),header=TRUE)

# データが不揃いなのを確認する
addmargins(table(Data[,1],Data[,2]))

# クラス毎の平均値
sapply(split(Data,Data$Classroom),function(x){mean(x$Height)})

# 最小二乗平均を求める
library(lsmeans)

model = lm(Height ~ Classroom + Sex,data = Data)

# クラス毎の平均
lsmeans(model,"Classroom")

# 男女毎の平均
lsmeans(model,"Sex")

#################################

結果は、

クラス毎の平均

$`Classroom lsmeans`
 Classroom lsmean        SE df lower.CL upper.CL
         A  153.5 0.3922323 13 152.6526 154.3474
         B  153.5 0.4193139 13 152.5941 154.4059

男女毎の平均

$`Sex lsmeans`
    Sex lsmean        SE df lower.CL upper.CL
 Female  156.5 0.3554907 13 155.7320 157.2680
   Male  150.5 0.4629100 13 149.4999 151.5001

kamiyashiro · Answer

#3です。

－３を引くのだから、いいのか。

kamiyashiro · Answer

#3です。

±3の符号を間違えていました。

偏差の式の符号を逆にして下さい。

kamiyasiro · Answer

#3です。

今回は、たまたま同じ値になってしまったということです。
常に同じ値になるわけではありません。

kamiyasiro · Answer

企業でSQCを推進する立場の者です。博士（工学）です。

これまでの回答は、具体性に欠けますので、具体的にご説明したいと思います。

今回の数値例は、
http://rcompanion.org/handbook/G_05.html
R handbook 『What are Least Square Means?』を使いました。

このサイトはRの使い方をメインに説明しているので、ご質問者には向かないかもしれません。

さてこのサイトには、次のような問題が出ています。
小学校の低学年に２学級があります。各組の身長の、平均と最小二乗平均を求めなさい。

Classroom  Sex     Height
A          Male    151
A          Male    150
A          Male    152
A          Male    149
A          Female  155
A          Female  156
A          Female  157
A          Female  158
B          Male    151
B          Male    150
B          Female  155
B          Female  156
B          Female  157
B          Female  158
B          Female  156
B          Female  157

平均は、単純に計算でき、
A組が153.5
B組が155.0
全体平均は154.25です。

では、次に最小二乗平均を求めます。
まず、男女差を計算します。各々の平均は次のようになります。
男  150.5
女  156.5
ここでは示しませんが、クロス集計表を作ってキチンと確認しましたが、クラス毎に上記の値となりますので、交互作用は無いようです（リンク先の例では交互作用モデルにしています）。

男女には±３cmの開きがあります。

さて、ここからは、エクセルのソルバーがあると便利なんですが、
A組の仮平均を例えば上記の値153.5、
B組の仮平均を例えば上記の値155.0として、
各観測値から、男子ならー３、女子なら＋３、そして各仮平均を引きます。

（偏差）＝（観測値）±３－（その組の仮平均）

次に、偏差平方和を求め、それが最小になるように仮平均を最適化します。
ここをエクセルのソルバーでやるのです。

その結果は、
A組の最小二乗平均は153.5
B組の最小二乗平均は153.5となり、２組とも同じ値になりました。
前出のリンク先はRでやっており、lsmeanとして同じ値が示されています。

このように、最小２乗平均は、クラス間と男女間のように共変量があるとき、男子と女子の観測数が異なっていても、クラス間の差のみを明確にしたいときに用います。
単純な平均とは、明らかに違いますよね。

是非、エクセルのソルバーで確認してみて下さい。

kuroki55 · Answer

No.1です。
下記の説明でどうですか。
https://oshiete.goo.ne.jp/qa/767797.html

kuroki55 · Answer

とりあえず下記を読んで下さい。
https://sci-pursuit.com/math/statistics/least-square-method.html

最小二乗平均につきまして

#3です。

#3です。

#3です。

#3です。

#3です。

#3です。

#3です。

企業でSQCを推進する立場の者です。

No.1です。

とりあえず下記を読んで下さい。

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング