dポイントプレゼントキャンペーン実施中!

文章の文字数と誤字数のデータがあり、この関係を調べたく思います。
いろいろな文字数の文章があって、それぞれにおいて数個程度の誤字数といった感じです。

単純に線形回帰(説明変数:文字数、目的変数:誤字数)をしてみると、直観に反せずそれなりの相関がありました。

ここで線形回帰以外のあてはめの可能性を考えてみることにします。
例えばカウントデータ→ポアソンとよく聞くなということで。

(質問1)しかしポアソン分布に適用するのは基本的に「単位時間当たり」のイベント数と言った単位XX当たりのデータであっているでしょうか。
つまり今回の誤字数はカウントデータではあるけれど、ポアソンでのカウントデータに対応するのは、この場合はむしろ100文字当たりの誤字数になるでしょうか。

誤字数のヒストグラムとしては、下記リンク先の3. 分析の準備 に掲載されている形状にほぼ同じなのですが、
https://toukei-lab.com/poisson-regression
これは先に述べたように文字数との相関があるので、たまたまデータに含まれていた文字数の分布が相まってそうなっているだけな気もしています。
#グラフの方は1年間当たり、のデータなので比較しているものが違いそうです

ちなみに100文字数当たりの誤字数は0と4がピークとなるヒストグラムとなりました。一定以下の文字数の文章では誤字が発生しづらいようで、0過剰のデータと言えそうです。
(質問2)単位文字数当たりの誤字数を目的変数とする場合に候補になりそうなモデルはあるでしょうか。もしよろしければこちらも回答いただけると幸いです。

A 回答 (17件中11~17件)

No.2です。



ポアソン回帰のプロット例を示しておきます。

これは、土地価格の事例で、横軸が地積、縦軸が売価です。回帰係数(傾き)が平米単価になります。
見るからに「等分散仮定」ではおかしいことが分かりますね。こういう場合にポアソン回帰が用いられます。

なお、図中、内側の破線は回帰線の信頼区間、外側の破線はデータの予測区間です。予測区間は放物線になっています。
いずれも95%範囲で引いています。
使用ソフトはRで、関数はglm()です。

No.7様ご指摘のとおり、確かに、なぜ地積が大きくなると売価ばらつきが増えるのか、その考察が重要ですが、私は不動産屋ではないので分かりません。

ところで、回帰係数(平米単価)β=売価総額/総面積 で求められますので、線形回帰のβを用いるより、βが収益にキチンと反映され、収支が合います。

ですから、工業の世界の稼働率の算出などは、ポアソン回帰が用いられることが多いです。
「ポアソン回帰でのカウントデータとは」の回答画像8
    • good
    • 0
この回答へのお礼

ありがとうございます。
綺麗に収まっていますね。手元のデータはここまで見事にはいかないようですね。

お礼日時:2024/02/27 00:38

プロの統計実践家の回答が出ていますんで、No.1としては質問されてもいないことについての蛇足を付けときます。



 誤字の分布の研究というのは面白い着眼だなあと感心しています。データを取るには膨大な数の長い文章を扱う必要がある。その中から誤字をいちいち拾い出すなんて、余りに大変。しかし近頃の自然言語処理用AIに「この文章の誤字を指摘しろ」と指示すれば、結構正確にやってくれちゃう。なるほどタイムリーな題材だなと思います。
 ところで、誤字の発生はただランダムな現象というわけではないような気がするんです。というのは、ある特定の出版社が出す本にはよく誤字がある、という印象がある。それは、会社のリソースが不足しているのか、編集作業の納期がやたら短いのか、いや抱えているライターがそもそもダメなのか、要因はいろいろ考えられます。あるいは、青空文庫で「ダレソレの全作品」なんてのをぶっ通しで読みますと、特定の範囲にだけ誤字がやたらあるという現象にしばしば出くわす。もちろん、その部分の入力を担当したボランティアさんが迂闊だったからに違いない。…というように、因果的な説明ができそうな成分がかなりあるんじゃなかろうか。
 となると、純粋に統計的アプローチで重回帰モデルをいじくるのは如何なものか。モデルの自由度を増やしてもいわゆる「次元の呪い」が容易に起こってしまったり、重要な要因の測定値(編集者の作業量とか)が得られなかったりして、ナンセンスになりそうです。
 実りある研究をするには、むしろ「誤字の発生メカニズム」の理論的考察に基づいて、扱う文章を絞った上で検証すべき仮説を考案し、狙い撃ちで調べるのが良いのかなとおもいます。とは言っても、何を研究の出口にすればいいんだか、ちょっと思いつかんのですが…
    • good
    • 0
この回答へのお礼

尤もです。おそらくおっしゃる通りなのだと感じます。
最終的にはご指摘のアプローチをとることになろうかと思いますが、一旦はある程度目的を棚上げにしつつ、これを題材として基本的な手法の理解を深めておこうと考えています。

お礼日時:2024/02/27 00:34

コメント、ありがとうございます。



> 軸が同じということは、縦軸は誤字数ということですね。

はい。同じ散布図上に、回帰線が入ります。
ただし、一般線形回帰とポアソン回帰では、傾きが違う回帰線が入ります。

ポアソン回帰は、xが大きい時は誤差も大きいだろうという重みを考慮して求められます。

さらに、回帰線には予測区間(誤差範囲)を添えることが多いですが、
・線形回帰は、回帰線とほぼ平行
・ポアソン回帰は、√xに比例して放物線状に広がっていく
というものになります。

> 確かに所謂傾きは一定になるわけか

はい。
横軸=文字数、縦軸=y/x としてプロットすると、誤字率が横並びでプロットされ、期待値βが求められます。その値は、

β=1/n・∑(yi/xi)

つまり、毎回の率yi/xiの平均として求められます。そのときの誤差範囲はほぼ水平線βと平行になります。(等分散仮定に変換しているから)

ところが、縦軸y/x→yという元に戻す変換を行うと回帰線は斜めに立ち、平行だった誤差範囲が縦方向にx倍され、xに比例するように直線的に広がる形になります。つまりCV一定モデルとなります。

このときの傾きβは、ポアソンモデルで求めたβ=総誤字数/総文字数 とは異なる値となります。


以上、モデルによって、誤字率βが異なる値として計算されますので、誤差がどういうモデルかを吟味することは、とても大切です。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
イメージがつきました。

お礼日時:2024/02/27 00:24

ご質問に張ってあるリンク先を読みましたが、この筆者、素人です。


あぶない、あぶない。

導入部分から素人らしい間違いを犯しています。
「実は重回帰分析というのは線形モデルの一種であり、『目的変数の分布に正規分布を仮定している』という制限があるのです。」

↑この間違い、分かりますか?

正しくは、目的変数の「誤差の分布」に正規分布を仮定しているのですよ。(ガウス・マルコフの定理、BLUEになる条件)

目的変数そのものは一定間隔の一様分布でも良いです。現に、実験計画法では、そういうデータ採取を行います。




こんなサイトを読まれたので、ご質問者は混乱されたでしょう。
私のNo.2~4の回答は、何を言っているのか分からなかったのではないですか?

私は一貫して、誤差がポアソン分布に従い、「説明変数xが大きくなれば、√xに比例して誤差が増えるモデル」について語っています。

ネット記事はあぶないです。
自称データサイエンティストもあぶないです。
朝倉、共立、丸善、コロナあたりの出版社から出ている、まともな本で勉強すべきですね。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
おっしゃるようにネット記事頼みよりしっかりした書籍に頼ることにします。

お礼日時:2024/02/24 14:17

No.2です。



(質問2)単位文字数当たりの誤字数を目的変数とする場合

ご質問の意味を間違えていました。非線形とかでなく「モデル」ですね。

これは、No.3で書いた通り、CV一定モデルに該当しますね。ポアソンモデルにはなりません。

いま、次の関係を考えます。βは誤字率のような求めたい値です。

y=βx+ε

ここで、εi=σ・xi というように、誤差εがxに比例する場合、誤差の2乗が分散ですから、ε~N(0,σ^2・x^2) という分布に従います。

上式の両辺をxで割ると、y/x=β+ε/x となり、この回帰線※の誤差は、ε/x~N(0,σ^2) という等分散になります。
この状態であれば等分散なので、線形回帰に持ち込めます。
※回帰線と言っても、y/x=βという定数(水平線)ですが・・・

つまり、単位文字数当たりの誤字数y/xを目的変数とする線形回帰を行うと、モデルはポアソンモデルではなく、CV一定モデルとなります。

このあたりを曖昧にしたまま解析すると、βの値(誤字率)が違ってきますので要注意です。

No.1さんの「たくさんの文章を集めたら合計N文字あって、その中に合計G文字の誤字があった」ときのG/Nこそが、ポアソンモデルを仮定したときの誤字率になります。
    • good
    • 0
この回答へのお礼

確かに所謂傾きは一定になるわけか。。
ありがとうございました。

お礼日時:2024/02/24 14:20

No.2です。



ちなみに、yの値として率のような小数点以下の値がある数値を使うと、Rでは警告が出ます。

あと、原点を通るような直線モデルを考えた場合の傾きは、

・線形回帰の傾きは、β=Sxy/Sxx
・ポアソン回帰の傾きは、β=Σyi/∑xi

ポアソン回帰の傾きは、年間総走行距離を年間総給油量で割って燃費を計算する感じですが、長距離走った時は、それなりに燃費のばらつきは大きいということを反映しています。ばらつきは一定ではなく原点近くではばらつきは小さいのです。

・ちなみに、β=1/n・∑(yi/xi)

というように、毎回の燃費を平均したものは、誤差はCV一定(直線的にばらつきが増えていくタイプ)となります。CVとは変動係数のことです。

Rでは、

result <- glm(誤字数 ~ 文字数, data = x, family = Gamma(link = identity))

というように、family = Gammaを使うことになります。
    • good
    • 0
この回答へのお礼

原点付近でのばらつきについてとても参考になりました。
どうもありがとうございました。

お礼日時:2024/02/24 14:21

「たくさんの文章を集めたら合計N文字あって、その中に合計G文字の誤字があった」とします。

さらに、「ある文章の文字数と、その文章が含む誤字数とがよく相関する」という観察をした。
 そこで、第0近似のモデルとして「誤字はランダムに、p = G/Nの確率で発生する」と考える。すると、「n文字から成る文章に含まれる誤字数がkである確率は、λ=np のポアソン分布に従う」ということになる。

 余談ながら、大抵の文章は同じ語を複数回使う。もしその単語の字を間違えて憶えている(あるいはワープロの辞書に誤変換が登録されてしまっている)のであれば、当然、誤りが繰り返されることになる。そこで(「トータルで何文字の中に何個の誤字があったか」を数えるよりも、)「一つの文章の中に何種類の誤字があったか」を文章ごとに調べたものを、その文章の文字数を重みとして平均してpを計算する方が、ポアソンモデルと親和性が良さそうな気がします。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
なるほどいけそうです。
誤字数についてはご助言の通り種類数で試みてみます。

お礼日時:2024/02/24 13:58

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています


このQ&Aを見た人がよく見るQ&A