アプリ版:「スタンプのみでお礼する」機能のリリースについて

文章の文字数と誤字数のデータがあり、この関係を調べたく思います。
いろいろな文字数の文章があって、それぞれにおいて数個程度の誤字数といった感じです。

単純に線形回帰(説明変数:文字数、目的変数:誤字数)をしてみると、直観に反せずそれなりの相関がありました。

ここで線形回帰以外のあてはめの可能性を考えてみることにします。
例えばカウントデータ→ポアソンとよく聞くなということで。

(質問1)しかしポアソン分布に適用するのは基本的に「単位時間当たり」のイベント数と言った単位XX当たりのデータであっているでしょうか。
つまり今回の誤字数はカウントデータではあるけれど、ポアソンでのカウントデータに対応するのは、この場合はむしろ100文字当たりの誤字数になるでしょうか。

誤字数のヒストグラムとしては、下記リンク先の3. 分析の準備 に掲載されている形状にほぼ同じなのですが、
https://toukei-lab.com/poisson-regression
これは先に述べたように文字数との相関があるので、たまたまデータに含まれていた文字数の分布が相まってそうなっているだけな気もしています。
#グラフの方は1年間当たり、のデータなので比較しているものが違いそうです

ちなみに100文字数当たりの誤字数は0と4がピークとなるヒストグラムとなりました。一定以下の文字数の文章では誤字が発生しづらいようで、0過剰のデータと言えそうです。
(質問2)単位文字数当たりの誤字数を目的変数とする場合に候補になりそうなモデルはあるでしょうか。もしよろしければこちらも回答いただけると幸いです。

A 回答 (17件中1~10件)

ポアソン回帰について



(1) いいえ。横軸、縦軸は同じです。

線形回帰とは、誤差が等分散だという仮定の下で解くもの。
ポアソン回帰とは、誤差がポアソン分布に従うという仮定の下で解くもの。

ポアソン分布の特徴は、平均がλのときは分散もλ。誤差は分散の平方根の次元ですので、予測区間は放物線状に広がります。

横軸を文字数、縦軸を誤字数とすると、回帰直線は線形回帰とは異なった傾きになります。

(2) 直線だけでなく、非線形モデルが使えます。ポアソンの場合はlogとsqrt(平方根)の曲線が使えます。

解法は、一般化線形モデルで求めます。

Rだと、glm()かglmnet()を使います。

result <- glm(誤字数 ~ 文字数, data = x, family = poisson(link = identity))

もちろん、重回帰分析のように、複数の説明変数が使えます。
また、link = logのようにリンク関数を変更すれば曲線になります。
    • good
    • 0
この回答へのお礼

軸が同じということは
縦軸は誤字数
ということですね。
ありがとうございました。

お礼日時:2024/02/24 14:23

ANo.7へのコメントについて、



> これを題材として基本的な手法の理解

ということですか。ならば、ポアソン回帰をやる前に、まずは平均の誤字発生率 p=G/N(誤字の総数/文字の総数)を使って、帰無仮説
H:「(n,g) (n文字中g文字の誤字)のデータは、どれもgがλ= pn のポアソン布に従ってランダムに発生したものだ」
がどのぐらいの有意水準を持つかを調べるのが先決じゃないでしょうかね。

(もし高い値だった場合には、「このデータだけじゃ、確率pでランダムに発生してるのと、区別がはっきりつかなかった」という以上の知見は得られません。また、もしかなり低い値だった場合は、Hはまず間違いなく誤りだと考えられ、もっと別のモデルを工夫しなくてはならない。いずれにせよ、その先を探るには他の要因を含めたデータを取り直す必要が出てくるでしょう。というのはさておき)

 で、どうやればいいか。大昔なら難しい(下手をすると、いろんな仮定が"うっかり"紛れ込んだ)理論をこねくる必要があって、シロートではなかなか手が出なかった。でも、今は高性能のコンピュータがあるから、ブートストラップ法が使える。すなわち、「帰無仮説によると、実際に測ったgが期待値λからこんなにずれるということが偶然で生じる確率は一体いくらなのか」を(単純だが繰り返し回数がうんと多い)数値実験で直接計算すればいい。という訳で、(そのヤリカタの詳細説明はプロにお任せしますが、ともあれ)まずは「ブートストラップ法」がどういう考え方なのか、を勉強なさることをお勧めします。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
学習における方針提示は素直にありがたいものです。名前程度しか認知していないので調べてみます。ブートストラップ法。

お礼日時:2024/03/09 18:20

No.15様



はい。おっしゃるとおりですね。私も曖昧でした。すみません。

①正確には「モデル残差」です。回帰式にフィットしない部分です。
それが、他の因子に依存しない、単なる偶然のゆらぎのみであることが、回帰モデルが正しいという立証に繋がるのです。

②今回の事例は、一見、残差がxに依存しているのですが、それは「とある条件(欠点数を数えるなど)での確率過程」によって生じる「ポアソン分布に従った偶然の産物」ということですね。

そこで、①を担保するために、②を仮定して解こう、ということですね。
    • good
    • 0
この回答へのお礼

ありがとうございます。

お礼日時:2024/03/09 18:16

ANo.1,7です。

気になったので1点だけ。

「残差(residue)」と「誤差(error)」の区別について、ご確認を。(両者をごっちゃにしているスカタン記事のサイトばかりか「教科書」すらありますから要注意。)

 「残差」はモデルを使って計算した値(予測値とか推定値と言うこともあります)と現実の観測値とのズレです。なので、残差が大きいか小さいか、残差の分布がキレイかどうか、系統的かランダムか、などの話は、「モデルがデータを説明する能力」を評価する際の議論です。このとき、「ホントにこんな観測値が出たのか?」という心配は棚上げされています。
 一方、「誤差」は観測そのものの過程や、データを加工する際の近似計算(有限の桁数で計算するなど)、あるいはデータを整理する作業の際の不適切な処理やうっかりミスなどによって生じた、観測値に含まれるノイズのこと。どんなモデルが適切かという心配とは、もちろん無関係です。
 ご質問の場合、誤差としてはたとえば「文章の中の誤字を見落としたり、誤字でないものを誤字と誤認したり(観測そのもの)、あるいは、同じページを重複して数えたり、ページを飛ばしてしまったり、数値を誤って転記したり(ミス)、などで生じる、計数の誤り」が考えられますね。
    • good
    • 0
この回答へのお礼

ありがとうございます。
書店で見てみましたが確かに成書でもぶれていますね。
漠然とですが、統計学は他の学問領域より語の揺らぎや誤用が多く感じます。それも誤解や未理解が蔓延る一因に思えてきます。

お礼日時:2024/03/09 18:15

SASの記事 > Udemyの講師さんへ



『はっきりと言っておきましょう。最小二乗回帰モデルの変数は、正規分布に従っている必要はありません。このような誤解がどこから来たのか分かりませんが、おそらくは最小二乗回帰モデルの誤差についての仮定と混同していると思われます。』

だそうです。

https://communities.sas.com/t5/Blog/%E7%B7%9A%E5 …
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
なるほど。最小二乗回帰モデルについてはそのようですね。
以下単に用語の問題です。
一方でポアソン回帰モデルについては、
日本統計学会の統計学実践ワークブック第1版150ページでのポアソン回帰モデルは応答がポアソン分布に従うと定義されていますね。相当はしょった文脈なのでリンク関数も対数しか説明されていませんが、上記定義部分は紙面の関係でぶれるものではなさそうです。
今回の議論でのポアソンモデルは残差がそれに従う、応答は問わない、というもので理解しています。

お礼日時:2024/03/09 18:13

> 誤差分布の確認方法



何度もすみません。
原理原則から再考してみました。
私のような場末の実務家は「図から判断した」でも通りますが、研究者が論文に書くには、目視判断ではマズいと思ったからです。

さて、
最小二乗解(OLS)の誤差(残差)に関しては、次のような仮定を満たすことが求められます。(目的変数ではありませんよ。>Udemyの講師さんへ)

「ガウス・マルコフの定理」:誤差に関する4つの仮定
①不偏性 :E(εi)=0(誤差の期待値は0)
②外生性 :Cov(Xi,εi)=E(εi|Xi)=0(誤差は説明変数とは無相関であり不偏)
③等分散性:Var(εi)=σ^2(誤差はどこでもσ^2)
④独立性 :Cov(εi,εj)=0(誤差どおしは無相関)

そして、
①②でOLSが不偏推定量に
③④でOLSがBLUE(最良線形不偏推定量)になります。

OLSがBLUEとは、簡単に言えば、最小2乗法で求めた解(OLS)が最尤法で求めた解と一致するということです。
最尤法とは、観測値の同時確率が最大になるようにフィッティングさせる方法で、平均値ですら基本は最尤法で求められます。

閑話休題、

今は、②の条件である「誤差(残差)は説明変数とは無相関」という部分が崩れています。それを確認します。

そこで、線形回帰の残差εiの絶対値を取って符号を消し、xiと|εi|の「相関係数」を求めます。

0.7以上あれば、線形回帰すなわち最小二乗法による回帰は出来ないと判断し、ポアソンか、CV一定か、を考えれば良いと思います。

0.7という閾値ですが、相関係数の2乗を寄与率と言います。0.7^2=0.49≒1/2。つまり、εの変化のうち半分はxの影響を受けている、ということです。
そこで、半分で線引きし、0.7を閾値にします。
    • good
    • 0
この回答へのお礼

ありがとうございます。
回帰からの残差という段で、最小二乗法での残差or最尤法での残差、2通りを算出できますが、ここでは前者かな。
最小二乗法で考えてみて、しかし説明変数との相関がありすぎる→ポアソン、ひとまずそれでみてみます。

お礼日時:2024/03/09 18:00

> 誤差分布の確認方法



①散布図
散布図を描けば、xに依存して誤差が広がっていくのかどうか、それととに直線回帰で良いかどうかも併せて分かります。データスプリットがあれば層別の必要性も分かります。

②残差プロット
線形回帰後の残差プロットでもx依存性が分かります。

③Q-Qプロット
残差のQ-Qプロットや確率紙プロットは、x依存性が見えないからダメです。それに、標本数が多いと、中心極限定理によって正規分布に見えてしまいます。

ただ、No.7さんが言及されていましたが、誤差が生じるメカニズムに基づいて誤差モデルを決めるのが一番妥当だと思います。

誤字のような欠点数が、横軸となる説明変数の影響以外は、「偶然のみ」によって生じているのであればポアソン分布です。
ポアソン分布であれば、平均がλのとき、分散もλですから、横軸xに依存して誤差が増加するはずです。

誤字の増え方は、本当に文字数以外の影響は無いのでしょうか?

お手元のデータが理想通りの散布図にならないのであれば、ますますNo.7さんご指摘のように、文字数以外の原因(説明変数)を考えて、重回帰分析に持ち込んだ方が良いと思います。
    • good
    • 0
この回答へのお礼

追加質問へのご回答ありがとうございます。
ありがとうございます。重回帰で候補パラメータを絞る方向で考えてみます。

お礼日時:2024/03/09 17:47

それにても、質問文のリンク先の記事はやばい。



読み直してみましたが、何が言いたいのか、さっぱり分かりませんでした。
ただ、知識を得たいと思って訪れた方にとっては、むしろ意味不明で良かった。

これというのも、「誤差」がどういう分布かではなく、「目的変数」がポアソン分布だという間違った認識から出発しているからでしょう。
この間違った認識を堂々と書いている点では罪深いです。

でもまあ、ちょっと統計を勉強すれば分かる、基本のキなので、放置しても良いでしょう。影響はなさそうです。

筆者はUdemy講師だそうです。

同僚からの指摘は無いのでしょうか?
彼らが間違いに対して、ダンマリを決め込んでいるなら、恐い世界です。
相手を突き落として、のし上がる世界なんですか。
それとも、Udemyって、みんながその程度?
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

なるほど‥

その誤差について、重ねてになりますがもしよろしければ、誤差分布の確認方法についてお聞きしたく存じます。下記認識に誤りはありそうでしょうか。

適合性検定や残差プロットなどいくつかあるかと思いますが、とりあえずは概形の把握をしようと思い、文章の文字数で小冪にしたサンプルNo iに対する残差プロットで確認しようかなと。

標準化残差でのQ-Qプロットについては、そもそも今回は残差を正規分布に近似していないので、使用しない方がよいのかなという認識です。
#λi=ni*p (nは文章文字数、pは誤字率)が0.1~2.1程度
 (近似可否はpの大小で見るべきか? pは0.0007程度)

お礼日時:2024/02/27 00:17

No.2です。



ついでですから、変動係数(CV)一定モデルの単回帰係数の導出も示しておきます。

土地価格の例であれば、物件ごとに平米単価を求めて、それを平均すると、CV一定の誤差モデルで「平均の平米単価」を解いたことになります。

なお、単回帰に対して重回帰になると、計算はそんなに簡単ではありません。実務では、Rなどの統計ソフトを使用することになります。

技術者たちは〇〇効率の推定の際に、ポアソンかなあ?CV一定かなあ?とか考えてやっています。

行きの時速と帰りの時速を足して2で割るなんて、小学生でもそんな間違いはしないとか言われそうですが、各標本の時速を足して平均するなんていうケースも現実にはあるわけです。

添付図の導出結果が、それを証明しています。
「ポアソン回帰でのカウントデータとは」の回答画像10
    • good
    • 0
この回答へのお礼

丁寧なご回答ありがとうございます。
こちらも理解できました。

お礼日時:2024/03/09 17:44

No.2です。



ポアソン回帰の単回帰の回帰係数が、なぜ、β=∑yi/∑xi になるのか、導出を示しておきます。

誤差がポアソン分布に従うとき、ポアソン分布は平均がλのとき分散もλですから、分散がxに比例します。

次の回帰式、
y=βx+ε において、
ε~N(0,x・σ^2)、このように分散がxに比例する場合、標準偏差は√x・σとなります。

そこで、式の両辺を√xで割れば、ばらつきはxによらず一定になります。(本来はポアソン分布は非対称分布ですが、中心極限定理により正規分布と見なします)

すると、等分散仮定が成り立ち、最小二乗法が適用可能になります。

y/√x=β√x+ε/√x

これをy’ として、y’ について最小二乗法を適用します。
この後の導出は、添付図をご覧ください。
「ポアソン回帰でのカウントデータとは」の回答画像9
    • good
    • 0
この回答へのお礼

丁寧なご回答ありがとうございます。
理解できました。

お礼日時:2024/03/09 17:38

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています


このQ&Aを見た人がよく見るQ&A