ちょっと変わったマニアな作品が集結

統計学に詳しい方、教えてください。


アンケート調査で重回帰分析をしようと思っているんですが、
ネット上での調査だとどうしても「適当に回答する人」が少なからず居ます。
しかし真面目に答えてくれる人ももちろんいます。


ダミー回答を入れたりすることで、一定数は弾けると思いますが、
ダミー回答を避けた「適当な回答」はどうしても含まれてしまいます。


統計的には、どの程度の割合が「真面目な回答」なら正しいデータが取れるのでしょうか?

なお、サンプル数に関しては1000件2000件といったそれなりの数が取れるものとします。

A 回答 (9件)

No.8です。



貴殿のご質問内容が、ほとんど理解不能です。

まず、アンケートの回答方式は、
項目選択型、記述回答型、のどちらですか?

前者ならば、統計は機械的であるべきで、
後者ならば、排除ではなく、無効回答として集計すべきです。

> 設問を無視した回答なんだから「なぜ」と詳しく考察するまでもないでしょう。
無効と判断したのは統計者の主観以外あり得ません。
被報告者にとっては、無効判断の理由は当然必要です。

> 「選択しないでください」というのを…
> そもそも選択肢として成り立ってない項目を選んでるわけで、…
回答として選択不可の項目を用意すること自体、理解できません。

最後に、
アンケートは、回答をまとめたから終わり、ではありません。
アンケートの統計は主観無しに機械的に行うこと、
無効回答も回答に変わりはないので、分類に含むこと(排除しないこと)。
最も重要なのは統計結果ではなく、その統計結果に対する、
所見、アンケート目的に対しての導かれる結論、考察、
これを被報告者に理解できる文章で組み立てる(整理する)こと、
これが報告者の義務です。

収束しそうにもありませんので、これ以上反論は無用とさせてください。
お邪魔しました…
    • good
    • 0
この回答へのお礼

項目選択型です。「バナナ」「リンゴ」「選択しないでください」と書いたからわかると思いますが・・・

>回答として選択不可の項目を用意すること自体、理解できません。

それこそあなたの主観でしょう(笑)

アンケートの統計そのものは機械的に行っています。
その後の分析で、客観的判断にもとづいて「適当な回答=心理が反映されていないと思われる回答が除外されるように絞り込んでいるだけです。

これを主観的判断だと言うのであれば、「好きな食べ物は?」という設問に「リンゴ」と回答した例について、「この回答者はリンゴが好きだ」という判断も主観的判断になってしまいます。
それなら人間心理をダミー変数にした統計そのものが成り立ちません。

あなたのやってきた統計はダミー変数を使わない数字だけの統計なのでしょうね。

お礼日時:2017/09/07 05:25

No.6です。



> なぜ回答の正否を疑うとアンケートが成り立たないのでしょうか?
アンケート結果の統計に、統計者の主観は入れるべきではありません。

> この違いがわかりませんか?
「この選択肢は選択しないでください」とだけありました。
「該当しない方、ご質問が理解できない方は、「この選択肢は選択しないでください」」
とあれば、意味は通じます。

> 統計を取る前からアンケート結果を疑わないような馬鹿正直な調査で…
統計結果を、統計者の主観で排除したりすれば、統計値の意図的操作になります。

> それを「こういう結果が出ました」と意気揚々と論文に使うような世界なんですか?
それは、統計の仕方次第です。
そうしたければ「不正と思われる回答」として分類して統計に含むべきです。
そして、なぜ不正としたのか、なぜ不正回答を招いたのか、等を考察で述べるべきです。

回答者には、質問を理解できない場合や、項目間の不整合な回答などはよくあることです。
なぜそんな結果を招いたかを、設問の考慮不足として、考察で反省すべきです。

貴方のご質問の裏には、アンケート結果を自分の考えに誘導できる統計方法として、
気に食わない回答は排除したい、という考えが見えてなりません。
各紙の政権支持率がそうであるように(こちらは設問分類で操作していますが)。
    • good
    • 0
この回答へのお礼

>アンケート結果の統計に、統計者の主観は入れるべきではありません。

主観ではありません。
本来回答するべきではない設問無視の回答を除外するという客観的判断です。
通常のアンケートでも「有効回答数」という言葉があるように、イレギュラーな回答は除外されるものだと思いますが?

>そうしたければ「不正と思われる回答」として分類して統計に含むべきです。

誰がどう見ても「不正と思われる回答」に分類される事例だと思いますが・・・。
設問を無視した回答なんだから「なぜ」と詳しく考察するまでもないでしょう。
botの疑いもあるし、日本語が理解出来ない人の可能性もある。

>気に食わない回答は排除したい、という考えが見えてなりません。

どこをどう見たらそういうふうに見えるのか・・・。

「選択しないでください」というのを
「リンゴ」「ミカン」「バナナ←この選択肢は選択しないでください」
みたいにイメージしてるんですかね?

そうではなく、
「リンゴ」「ミカン」「この選択肢は選択しないでください」
で、3番目を選んだ人のことなので、自分の考えに誘導するっていう発想が意味不明すぎます。

そもそも選択肢として成り立ってない項目を選んでるわけで、誘導などしようがありません。

お礼日時:2017/09/06 03:59

>それでも「商品を買う人の傾向」として正しい統計結果が出るということでしょうか?


>「適当に回答する人の割合」を調査したいわけではないのに、
>「適当に回答する人を含めるべき」とする論理がわかりません。

あなたが、知りたいのは「この商品を買う人全ての傾向」であって、
「商品を買う人のうちで、アンケートに真面目に答える律儀な性格の人だけを取り出した集団の傾向」ではないのではないですか?

例えば、アンケートに律儀に答える人は、例えば几帳面な人が多いとすれば、
真面目に答えたアンケートだけを恣意的にとりだしたら、
「この商品を買うのは几帳面な人だ」っていう結論が得られることになりそうですけど、それは望ましい結果ですか?
    • good
    • 0
この回答へのお礼

アンケートは最低限文章を読んで答えることが前提ではないのですか?

真面目という表現が良くなかったのかもしれません。
正確には、「文章を読んでない人」と「文章を読んでる人」の差です。

「なんとなく回答した人」を除外するっていう意味じゃないんですよ。
「文章をまったく読んでないような回答者」を適当な回答者と表現したのです。

几帳面とか律儀とかそんな次元の話ではないです。
ネット上だとbotのような自動回答もあるので、人間じゃない回答者も居ますから。

お礼日時:2017/09/05 05:06

No.1です。



> お礼が貰えるアンケートの場合、お礼目的に適当な回答をしてしまうケースが多々あると思います。
そんな先入観(解答の正否を疑う)があれば、アンケート自体が成り立ちません。
やはり、回答は「そのまま受け入れるべきです」。
そして、「釣り」のアンケートならば、設問たるの資格は無いでしょう。

> 「この選択肢は選択しないでください」という項目を設けることで、・・
意味不明です。普通は「解らない」では?
普通は、次の設問になるはずです…
このアンケートを知ったきっかけ、
答えようと思った理由、
答えた代償を欲しいか、
直接お話を聞きたい、連絡先は? 拒否?


いずれにせよ、アンケート結果(回答)を疑うようなアンケート自体、辞めるべきでしょう。
回答の統計分類ができていない証拠かと思います。
    • good
    • 1
この回答へのお礼

なぜ回答の正否を疑うとアンケートが成り立たないのでしょうか?

好き勝手に取捨選択するのではなく、明確なデータとしての取捨選択なので、アンケートとして成り立つと思うんですが。

「わからない」は設問に対する答えです。
「選択しないでください」を選択することは設問を無視してることを意味します。

この違いがわかりませんか?

統計を取る前からアンケート結果を疑わないような馬鹿正直な調査でまともな統計が出るとは思えませんが、統計学っていうのはその程度のものなんでしょうか?

全員が日本語もわからない外国人や、botによる回答結果だったとしても、それを「こういう結果が出ました」と意気揚々と論文に使うような世界なんですか?

お礼日時:2017/09/05 05:02

#2の方のいう通りです。



礼儀とかの問題ではなくて、統計的に正しい結果を得るためには母集団を歪めてはいけません。

「適当に回答する人」も、母集団のうちなわけです。
「真面目な回答のみ」を抜き出す、という処理をいれてしまったら、
その時点で、母集団が、本来の調査対象者全員ではなくて「調査対象者のうちで真面目な回答をする律儀な性格な人のみ」に制限されてしまうわけで、
偏った結果になってしまうことは明白でしょう。
とにかく、統計処理の前に、母集団を恣意的に歪めるような処理はしてはいけません。

もし、どうしても、「適当な回答」を除きたいのであれば、
最低でも、「真面目な回答」の中での、それ以外の特徴(年齢、性別、地域など)の割合が、実際の対象の分布と同じになるようにする、とかは必須だと思います。
たとえば、20代男は、適当な回答率が高いのであれば、20代男は他よりも数を多くするなど。
    • good
    • 0
この回答へのお礼

では例えば「商品を買う人の年齢と趣味」を調査するとして、
そのうち50%の人が設問を見もせずに回答したとして、
それでも「商品を買う人の傾向」として正しい統計結果が出るということでしょうか?

「適当に回答する人の割合」を調査したいわけではないのに、
「適当に回答する人を含めるべき」とする論理がわかりません。

お礼日時:2017/09/04 04:11

> お礼が貰えるアンケートの場合、選択式の設問を見もせずに適当にタップしていき送信してしまうケースが多々あると思います。

 ① そのため、「この選択肢は選択しないでください」という項目を設けることで、それを選んだ回答者を除外するという方法が取れると思いますがいかがでしょうか。 ② それとも、そういう選択肢を選択した人もサンプル数に含めて処理するべきなのでしょうか?

次のように私は回答しています。 
A ネット上での調査でも、きちんと統計調査することが目標ならば、すべての回答を対象とすべきです。 
B 回答をえてから、自分の目的に沿って、回答を選別して処理したいのは、アンケート解析の結果の使い方を《特異な方向に限定している》からなのでしょう。 そうであれば、もはや、正しいデータという概念はないのです。 
C 市場動向、関心の方向を探りたい、人気度をみたい、困窮度を調べたいなどの目的意識があるのであれば、その調査目的をさらに検討すると、アンケートで解析すべき回答を絞り込む手法がいくつかでてきます。 まじめ/適当/機械的などの区分ではなくて、アンケートで解析すべき回答を絞り込む手法が、調査目的から出てきます。

調査する目的やネライは何でしょうか。
ネットアンケートにどのような回答が寄せられるのかを実験的に調査するのが目的ならば、回答はすべて対象にすべきですし、もしも、ネットで閲覧したが回答しなかった、回答をし始めたが最終的に完了送信の操作をしなかったといのもチェックできるシステムを使えるのなら、それらを含めるべきですし、お礼ネライや妨害目的でアカウントを変更して複数回回答するのをチェックできるのであれば、そうしたものも対象にしないと、調査目的は達しにくくなります。

扱い対象回答を限定するネライで、「この選択肢は選択しないでください」という選択肢を適当に織り交ぜて質問を構成するとか、「この質問項目はダミーですので、どの選択肢を選んだ場合でも、正規の回答としては扱わず、お礼の対象にもいたしません」という質問項目を設けても、何ら問題はないです。 そうした質問が1,2項目程度ならば、回答者も許容することが多いと思います。
ただ、ネットアンケートの調査目的がネットアンケートの回答実態のサンプリングのつもりならば、そうした回答を統計調査の対象から一切外してしまったら、調査の質が低下してしまいます。
[二十代女性で(学生でも定職も持っておらず)(スマホ利用が1日に3時間以上)のもの]についての《消費購買等に関する意識調査/特定商品に関する関心傾向調査》というような特殊な目的を持って調査しているのであれば、回答の中から適宜絞り込んで、絞り込んだ回答から解析をすればいいです。お礼の提供は、基本、全回答者を対象にするのが礼儀でしょう。

調査の母集団をどのように考え、どのような手法で調査するか、サンプリングについて詳しく検討せず、ネットでの回答特性にも配慮せず、とにかく集まった回答ならばそれを統計手法に適応させてしまうというのでは、(特殊な目的を持っている場合は別として)イイ調査はできないと思います。
    • good
    • 0
この回答へのお礼

目的は心理学の論文です。

>回答の中から適宜絞り込んで、絞り込んだ回答から解析をすればいいです。

ん??
だから、「ダミー回答を選択した回答者」が弾かれるように絞り込めばいいってことですよね?
その話をずっとしてるんであって、特定の回答者にお礼をしないなんて話は誰もしてないんですが・・・。

お礼日時:2017/09/04 04:15

書き忘れましたが、ロボット回答でも、選択式の回答で(②②③③③②②③③③)のように機械的に回答する回答でも、それを回答として扱うのが基本です。


同じ回答者が別名や別アカウントでたび重ねて回答してきたとしても、それを有効回答として扱うのが基本です。
統計処理する回答に制限を設けて、適当に(厳格にでも同じです)回答を選別して、適格回答のみを処理したいのであれば、それをアンケートに宣言しておくべきです。回答者に対しての礼儀をわきまえず、回答をえてから、自分の目的に沿って、回答を選別して処理したいのは、アンケート解析の結果の使い方を《特異な方向に限定している》からなのでしょう。 そうであれば、もはや、正しいデータという概念はないのです。 市場動向、関心の方向を探りたい、人気度をみたい、困窮度を調べたいなどの目的意識があるのであれば、その調査目的をさらに検討すると、アンケートで解析すべき回答を絞り込む手法がいくつかでてきます。 まじめ/適当/機械的などの区分ではなくて、アンケートで解析すべき回答を絞り込む手法が、調査目的から出てきます。 絞り込んだ結果の回答は、おそらく数十件もあれば十分であることが多いと思います。
    • good
    • 0

ネット上での調査でも、きちんと統計調査することが目標ならば、すべての回答を対象とすべきです。


男の回答は受け入れない、40歳以上の回答は対象にしない、外国籍の回答者は受け入れない、ロボット回答(ネット回答開始から終了までの時間が短い回答)は受け入れない、第3問に△△という回答をしたものの回答は受け入れない、アンケート実施者が回答内容の質的理解ができないと判定した回答は統計対象から排除する、22:00~6:00までの回答は受け入れないなどのことをして、統計処理したいのであれば、そのような《お断り》を調査協力依頼にあらかじめ明記すべきです。 そうした断りもなくアンケート調査して、得た回答から適時自分の判断で回答を選別して統計処理する方が大問題です。
「ダミー回答」ってなんのことなのかわかりませんが、アンケート設計者やアンケート調査実施者が「ダミー回答を入れたりする」というのがさらにわかりません。
アンケート実施者が回答内容の質的理解ができないと判定するときの工夫の方法として、設問に仕掛けを組み込むことは可能ですが、その工夫で何が得られるかは、アンケート設計者の能力や検証力の《検証》がなければ、ただの自己満足以上のものとは言えません。
そもそも、「適当な回答」とか「真面目な回答」とか、「正しいデータ」言っている時点で、社会調査というものがわかってないようにしか感じられないです。

重回帰分析などの手法だけ取り入れても、、、、

偏見かもしれませんが、ゆるふわこさんて、まじめに調べたりしたことがあるのでしょうか。
    • good
    • 0
この回答へのお礼

お礼が貰えるアンケートの場合、選択式の設問を見もせずに適当にタップしていき送信してしまうケースが多々あると思います。

そのため、「この選択肢は選択しないでください」という項目を設けることで、それを選んだ回答者を除外するという方法が取れると思いますがいかがでしょうか。

それとも、そういう選択肢を選択した人もサンプル数に含めて処理するべきなのでしょうか?

お礼日時:2017/09/03 17:57

アンケート統計の正確さは、回答者のいい加減さより、質問者側の設問区分の方が影響は大きいはずです。


例えば、設問1に対する回答abcの区別が不明瞭な場合は、その曖昧さに回答者が選択に悩みます。
実例として、政界支持率調査について、設問項目の内容は各紙異なります。
結果を高くしたい、低くしたい、という思惑が、結果を誘導すべく設問と曖昧回答区分とされるからです。
なお、回答は、まじめとか否かではなく、そのまま受け入れるべきです。
それを受け入れられなければ、その結果を統計する意味さえ失います。
先ずは、設問の適切さと、回答区分(分類)の明確さを目指すべきでしょう。

それでも、不真面目な回答を排除したいというのであれば、
同じ意味の質問を言葉を変えてちりばめて、その回答の矛盾度合いで排除選択をする、
と言う方法があります。
この結果をもって、貴方自身の疑問が数値化されるでしょう。
    • good
    • 0
この回答へのお礼

お礼が貰えるアンケートの場合、お礼目的に適当な回答をしてしまうケースが多々あると思います。
選択式の設問を見もせずに適当にタップしていき送信してしまう。

そのため、「この選択肢は選択しないでください」という項目を設けることで、それを選んだ回答者を除外するという方法が取れると思いますがいかがでしょうか。

お礼日時:2017/09/03 17:56

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aと関連する良く見られている質問

Qパスカルの原理と水圧について質問があります。

パスカルの原理では密閉され、静止した、流体のなか(重力を無視できる状態で)
の圧力はすべて一定となるということですが、
地球上の、例えば長さ50m、深さ5mプールのような大きいところを、完全密閉したら
(どうやって密閉するのかわかりませんが)本当に一番上と5mのところは
同じ水圧になるのでしょうか?(ふたをして空気をぬいていったら重力を無視できる
ということになるのですか)
教えていただける方お願いします。

Aベストアンサー

水風船はほぼ球体ですが、口を開けて空気を入れると下膨れになります。これは、重力の影響で水が下に引き寄せられ圧力が増えるからと考えられます。

液体は圧力をかけても体積が変わらないので、密封された空間では下の方にある分子も上に引き上げられると考えられます。

この為、プールに蓋をすれば圧力は一定となり、上の水圧は上がり、下の水圧は下がることになります。

但し、こんな大きなプールに蓋をしても必ずたわむと思われるので圧力を一定にするのは現実には難しいと思います。

Q累積度数分布を求める問題なのですが

次の粉塵濃度の水平分布から頻度分布のヒストグラムと累積度数分布を示せ。と言う問題なのですが手順がイマイチわからず困っています。
求め方を教えて下さいm(_ _)m

Aベストアンサー

#4です。

生データのヒストグラム・累積分布と、
密度を求めた時のヒストグラム・累積分布を
掲載するのを忘れていました。

ヒストグラムの横軸がうまく貼れていませんが、”濃度”です。

密度は低濃度側の頻度が高く、合ってない感じがします。
これが、前の投稿に書いた疑問です。
シン・プレートでは、うまく補間できないのかもしれません。

Q合成抵抗Rabを求めてください。 私が解くと3.6Ωになったのですが。 解答がないので分かりません。

合成抵抗Rabを求めてください。
私が解くと3.6Ωになったのですが。
解答がないので分かりません。
早めの回答をお願いいたします。(解答も)

Aベストアンサー

3.6Ωで正解です。

直列、並列抵抗の形では表せないので、真面目にキルヒホッフの式をたてる必要があります

Q世界史の「滅亡」の定義って?

唐やらアッバース朝やら〇〇家やらが滅亡したりしてますが、滅亡 ってなんなんでしょうか?
王様の一族郎党皆殺しですか?それとも王様の〇親等までとかでしょうか
「断絶」とはどう違うのでしょうか
ご回答よろしくお願いします

Aベストアンサー

王朝の滅亡は、その王朝が支配者の座から降りる事です。
王朝の断絶は、その王朝の血筋が消滅する事です。



例えば、ブルボン朝はフランス革命で滅亡しました。
しかしその後、王政復古をしています。


ブルボン朝の滅亡→ブルボン朝はフランスの支配者から脱落した。(また支配者に返り咲く事は可能)
ブルボン朝の断絶→ブルボン朝の血筋は皆殺し。(ルイ16世の弟もみんな血筋は死んでいるので、王政復古は不可能。)



このような意味の違いがあります。

Q正規分布の確率密度関数

画像のような問題で、定数kと分散の値は出せたのですが、平均の導き方がどうしてもわかりません。
助けて頂けると嬉しいです!

Aベストアンサー

#3です。企業に勤務する統計家です。

今日のお昼休みに、実際に解いてみました。
そうしたら、②の平均の導出がヒントとなって、
③の分散が、#2さんの「2次の中心積率」で簡単に解けることが分かりました。

#3での、#1さんへの指摘「前に出る定数e^1/2は分母になるのでは?」は、
私の勘違いでした。お詫びします。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

【問】k*exp(-x^2/2-x)が正規分布の確率密度関数のとき、
定数k,平均,および分散を求めよ。

①「密度関数は、-∞から∞まで積分した時に1になる」を使う。
ガウスの積分公式を使うため、まずネイピア数の指数を平方完成する。

(与式)=k*exp(-1/2*(x^2+2*x))
=k*exp(-1/2*(x+1)^2+1/2)
=k*exp(1/2) * exp(-1/2*(x+1)^2)

ガウスの積分公式∫e^(-at^2)dt=sqrt(π/a) より、

∫(与式)dx=k*exp(1/2) * sqrt(2*π) 積分区間は-∞から∞まで

k*exp(1/2) * sqrt(2*π)=1  と置くと、

∴k=1/(exp(1/2)*sqrt(2*π))

②与式は正規分布と指定されていることから、平均は与式を微分して0と置いて求める。
なぜなら、正規分布関数は、確率密度が一番高い所が平均だから。

(k*exp(-x^2/2-x))´
=k*exp(-x^2/2-x) * (-x^2/2-x)´
=k*exp(-x^2/2-x) * (-x-1)

これを0と置くと、前の項は指数関数で0にならないから、
(-x-1)=0
x=-1

∴E(x)=-1

③分散は2次の中心積率から求める。

V(x)=∫(x-(-1))^2*(与式)dx   積分区間は-∞から∞まで

②より、(与式)=(与式)´/-(x+1) となることに着目

V(x)=∫(x-(-1))^2*(与式)dx
=-∫(x+1)^2/(x+1)*(与式)´dx
=-∫(x+1)*(与式)´dx
=-((x+1)*(与式)-∫(x+1)´*(与式)dx)     ・・・部分積分を適用
=-(x+1)*(与式)+∫(与式)dx

第1項は(-1,0)を中心とした回転対称になる奇関数なので積分値は0。
第2項は確率密度の全範囲積分だから1。

∴V(x)=1

#3です。企業に勤務する統計家です。

今日のお昼休みに、実際に解いてみました。
そうしたら、②の平均の導出がヒントとなって、
③の分散が、#2さんの「2次の中心積率」で簡単に解けることが分かりました。

#3での、#1さんへの指摘「前に出る定数e^1/2は分母になるのでは?」は、
私の勘違いでした。お詫びします。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

【問】k*exp(-x^2/2-x)が正規分布の確率密度関数のとき、
定数k,平均,および分散を求めよ。

①「密度関数は、-∞から...続きを読む

Q1次元混合正規分布の等高線の描き方

書籍、「続・わかりやすいパターン認識」のp182の図9-3の「混合正規分布のパラメータ推定」
の図でμ1とμ2の等高線を描きたいのですが、この図のμ1とμ2の関係式はどのようにして導かれる
のでしょうか?p181の図9.31の説明では、式(9.17)により計算される対数尤度logp(x;θ)の
等高線が描かれているとあります。

この書籍勉強されている方で、分かる方、御教示でがえればと思います。

Aベストアンサー

企業で統計を推進する立場にある者です。

まず、等高線を描くRスクリプトを投稿します。
機械学習を学ばれている方なら、Rくらいは使えますよね。

次の投稿で、対数尤度の部分の解説をしたいと思います。

~~~~~~~~~~~~~~~~~~~~~~

rm(list=ls())
par(ask=T)

# 1次元混合モデルの尤度の等高線を描く
# μ1,μ2は未知数としてパラメータ扱いする

n <- 500
Pr1 <- 0.6
Pr2 <- 0.4

# 500個のデータを乱数生成しヒストグラムを描く

x <- c(rnorm(n * Pr1,3,1),rnorm(n * Pr2,-1,1))
bk <- seq((-5-1/6),(7+1/6),by=1/3) # 図9.2の区切り方
hist(x,breaks=bk,xlim=c(-4,6))

# 等高線図を作るためのグリッドを生成する

mu1 <- mu2 <- seq(-4,6,by=0.2)
z <- expand.grid(mu1,mu2)
len <- nrow(z)

# 500個のデータの対数尤度を、格子点毎に計算する

y <- NULL
for(i in 1:len){
l <- sum(log(dnorm(x,z[i,1],1) * Pr1 + dnorm(x,z[i,2],1) * Pr2))
y <- append(y,l)
}

# 格子点データを等高線図,外観図として描く

y <- matrix(y,ncol=sqrt(len))
contour(mu1,mu2,y,nlevels=50,drawlabels=FALSE)
persp(mu1,mu2,y,theta=-20,phi=45,expand=0.5,col="lightblue",shade=0.75)

# 最尤値

index <- which(y == max(y))
z[index,]
max(y) # そのときの対数尤度

企業で統計を推進する立場にある者です。

まず、等高線を描くRスクリプトを投稿します。
機械学習を学ばれている方なら、Rくらいは使えますよね。

次の投稿で、対数尤度の部分の解説をしたいと思います。

~~~~~~~~~~~~~~~~~~~~~~

rm(list=ls())
par(ask=T)

# 1次元混合モデルの尤度の等高線を描く
# μ1,μ2は未知数としてパラメータ扱いする

n <- 500
Pr1 <- 0.6
Pr2 <- 0.4

# 500個のデータを乱数生成しヒストグラムを描く

x <- c(rnorm(n * Pr1,3,1),rnorm(n * Pr2,-1,1))
bk <...続きを読む

Q正規分布に関する問題です。回答と解説をお願いします。

A社では1000g入りの砂糖を精製し袋詰めしている。管理されている工程なので、1袋あたりの重量は正規分布にしたがっている。重量が変動するため、1袋あたりの平均が1004gになるように調整して袋詰めしている。また、1袋あたりの重量の標準偏差は4gであった。このとき、ある袋の砂糖の重量が1000g未満になる確率は何パーセントか?
また、ある袋の砂糖の重量が1004g以上になる確率は何パーセントか?

Aベストアンサー

平均が 1004 g で、標準偏差が 4 g なら、計算も何も必要なく
 ・1000 g 未満である確率は 15.9% ←平均値 - σ 未満である確率
 ・1004 g 以上である確率は 50% ←平均値以上である確率

 ご承知は思いますが、「正規分布」とは、平均値をピークに、左右にダラ下がりの分布です。
 このとき、標準偏差を「σ」として、
  平均値± σ の範囲に、全体のデータ度数の 68.3% が入る
  平均値±2σ の範囲に、全体のデータ度数の 95.4% が入る
  平均値±3σ の範囲に、全体のデータ度数の 99.7% が入る
という特性があります。
http://www.stat.go.jp/koukou/howto/process/p4_3_2_1.htm

Q数学の「無定義用語」

数学には「無定義用語」というものがありますよね?
「言葉を厳密に定義することはできないので、いくつかの「無定義用語」を用意して、その関係を公理によって設定する」みたいな感じだったと思います。
そこで疑問に思ったのですが、「無定義用語」の関係を表す言葉(記号?)に「意味」があるのはまずくないですか?
いくら「無定義用語」を使っていても、それらの関係性を表す言葉(記号?)に「意味」があったら(定義されていたら)「無定義用語を使っている意味がないのでは」とならないでしょうか?

そのことを数学に詳しい人に聞いてみたところ
「実はその関係性を表しているもの、これも無定義なんだよ。ただこれを説明しようとすると
公理的集合論の話になる。」
と言っていました。

そこで公理的集合論のことをちょっと調べてみたのですが、それらしき話は見つかりませんでした。
関係性を表している「もの」も無定義とは、どういうことなのでしょうか?
そもそもとして、関係性を表している「もの」も無定義で、理論を展開できるのでしょうか?
=や∀や⊃などの記号は意味があるから使えているような気がするのですが...。

数学の素人の質問なのでトンチンカンな事を聞いているのかもしれませんが、どうしても気になります。回答お願いします。

(数学に関して素人なので、分かりやすく解説してくれると助かります。)

数学には「無定義用語」というものがありますよね?
「言葉を厳密に定義することはできないので、いくつかの「無定義用語」を用意して、その関係を公理によって設定する」みたいな感じだったと思います。
そこで疑問に思ったのですが、「無定義用語」の関係を表す言葉(記号?)に「意味」があるのはまずくないですか?
いくら「無定義用語」を使っていても、それらの関係性を表す言葉(記号?)に「意味」があったら(定義されていたら)「無定義用語を使っている意味がないのでは」とならないでしょうか?
...続きを読む

Aベストアンサー

数学をドライに捉える「公理主義」、あるいは、(現実とすっぱり縁を切ってしまったという意味で)もっとドライな「形式主義」に関するご質問かと思います。
 無定義用語のみならず、「無定義用語の関係を表す言葉」にも意味はありません。ただ、それら(要するに記号)の操作の仕方が公理系によって規定されているだけです。また定義によって導入された用語も、その定義というのが無定義用語と「無定義用語の関係を表す言葉」だけで与えられているに過ぎないんですから、おいこら一体どういう意味やねん、と徹底的に問い詰めて行けば、結局は「意味のないものに関する意味のない関係を満たす意味のないものです」ということになっちゃいます。ですが、あの「意味のないもの」とその「意味のないもの」とは必ずしも同じではなくて、操作の仕方の違いという区別がはっきりある。なので、それらの区別を明示するために、それぞれ別の用語を割り当てる訳です。

> そもそもとして、関係性を表している「もの」も無定義で、理論を展開できるのでしょうか?

 記号の扱い方が規定されている、その規定の中で、どんな論理式が真であると言えるのか、だけを問います。真だと言える論理式の集まりこそが、数学で言うところの「(その公理系における)理論」です。

 で、無定義用語や「無定義用語の関係を表す言葉」を何か特定の意味(イメージでもいいんです)だと思ってみたときに、それらの操作の仕方が公理系によって規定されている通りになる場合、そういう意味付けを「モデル」と言います。特に、その特定の意味付けが現実の何かとの対応である場合、この理論はその現実へ応用できる。数学の理論がいろんな所に応用が利くのは、理論に特定の意味を与えていないからです。まっさらだからこそ、いろんな意味付けができるというわけ。
 もちろん、意味付けしてみたものの、現実の側がちょっとでも公理系による規定の通りでないと、辻褄の合わない所が発生してしまって、これは理論の限界(limitation)ということです。たとえば、お金の計算は四則演算でできるかというと、10円を3人で分けるという話になると、なんだか辻褄が合わなくなる。

数学をドライに捉える「公理主義」、あるいは、(現実とすっぱり縁を切ってしまったという意味で)もっとドライな「形式主義」に関するご質問かと思います。
 無定義用語のみならず、「無定義用語の関係を表す言葉」にも意味はありません。ただ、それら(要するに記号)の操作の仕方が公理系によって規定されているだけです。また定義によって導入された用語も、その定義というのが無定義用語と「無定義用語の関係を表す言葉」だけで与えられているに過ぎないんですから、おいこら一体どういう意味やねん、と徹底...続きを読む

Qフィクションとかにおける中世欧州は実は近世だということについて

以前どこかで、ラノベとかゲームとかにある中世ヨーロッパ世界観というのは、実は近世のほうに近いということを聞いたのですが、もしそうなら具体的にはどんなところが近世っぽいと思いますか?

Aベストアンサー

まずは、ここを見てください。
https://ja.wikipedia.org/wiki/歴史上の推定都市人口
古代アレキサンドリアとか長安とか、人口50万~100万ですが、中世ヨーロッパだと、人口10万の都市でさえ超レアです。
※スペインは当時イスラムなのでノーカウント。ビザンツ(=イスタンブール)も、西ヨーロッパとまるで政治文化が違うのでノーカウント。

よって、
王都の人口が相当多いという描写があると、それだけでアウトです。
で、何故大都市が無いか、というと、中世ヨーロッパは自給自足社会で商業が発達しておらず、物々交換でかなり間に合ってしまうほどなので、物流が発達していないために人口集中が不可能だから。

つまり、
港町で商業が盛んな都市。  中世ヨーロッパにはほとんど存在しない。全く無い、というわけでは無いけど。
冒険者が商隊の護衛。村では宿屋に泊まる。村でも貨幣で買い物できる。  全部、近世以降のできごと。

中世ヨーロッパはド田舎であって、イスラム(スペイン含む)やビザンツ帝国が先進国に当たります。
イスラムやビザンツなら、冒険者がいても不思議は無いけれど。。。

まずは、ここを見てください。
https://ja.wikipedia.org/wiki/歴史上の推定都市人口
古代アレキサンドリアとか長安とか、人口50万~100万ですが、中世ヨーロッパだと、人口10万の都市でさえ超レアです。
※スペインは当時イスラムなのでノーカウント。ビザンツ(=イスタンブール)も、西ヨーロッパとまるで政治文化が違うのでノーカウント。

よって、
王都の人口が相当多いという描写があると、それだけでアウトです。
で、何故大都市が無いか、というと、中世ヨーロッパは自給自足社会で商業が発達して...続きを読む

Q野球の統計に関して

野球の不思議(?)について統計的に調べてみたいと思ったので質問です。
①「左投手対左打者は打者が不利である」
②「代わって入った野手のところに打球が飛びやすい」
という仮説を証明する(有意かどうかはおいておいて)にはどのような方法・分析を用いれば良いでしょうか…。
あまり統計には詳しくないのですが、よければ回答お願いします。

Aベストアンサー

全体のデータに対して、その特定の条件でのデータを比べて、「平均値」と「標準偏差」から、「正規分布」の特性を利用して、「明らかな差があるか、誤差範囲程度の差か」を判別すればよいです。特別な「方法・分析」は不要です。
・全体のデータ:投手、打者の左右に関わらないすべてのデータ
・その特定の条件:①なら「左投手対左打者のデータ」、②なら「野手交代直後のイニングのデータ」など

プロ野球の数十年のデータを集めれば、かなりの母数のデータが集まると思いますので、どちらも「正規分布」して「標準偏差」はかなり小さいと思いますので、差の有無はかなり明確に判定できると思います。

正規分布とは下記のような性質を持ちますので、両者の「平均値」が「全体データの標準偏差の2倍以上」離れていれば、「信頼度95%で、明らかに差がある」と言えます。両者の「平均値」が「全体のデータの標準偏差の3倍以上」離れていれば、「信頼度99%で、明らかに差がある」と言えます。

確率・統計の話なので、「100%の信頼度で」ということはあり得ません。通常「95%」で「ほぼ確実」とみなします。

***正規分布の特性***
標準偏差を「σ」として、
  平均値± σ の範囲に、全体のデータの 68.3% が入る
  平均値±2σ の範囲に、全体のデータの 95.4% が入る
  平均値±3σ の範囲に、全体のデータの 99.7% が入る
という特性があります。
↓ ここの図を見てください。
http://www.stat.go.jp/koukou/howto/process/p4_3_2_1.htm

全体のデータに対して、その特定の条件でのデータを比べて、「平均値」と「標準偏差」から、「正規分布」の特性を利用して、「明らかな差があるか、誤差範囲程度の差か」を判別すればよいです。特別な「方法・分析」は不要です。
・全体のデータ:投手、打者の左右に関わらないすべてのデータ
・その特定の条件:①なら「左投手対左打者のデータ」、②なら「野手交代直後のイニングのデータ」など

プロ野球の数十年のデータを集めれば、かなりの母数のデータが集まると思いますので、どちらも「正規分布」して「標準...続きを読む


人気Q&Aランキング