プロが教える店舗&オフィスのセキュリティ対策術

次の粉塵濃度の水平分布から頻度分布のヒストグラムと累積度数分布を示せ。と言う問題なのですが手順がイマイチわからず困っています。
求め方を教えて下さいm(_ _)m

「累積度数分布を求める問題なのですが」の質問画像

A 回答 (5件)

#4です。



生データのヒストグラム・累積分布と、
密度を求めた時のヒストグラム・累積分布を
掲載するのを忘れていました。

ヒストグラムの横軸がうまく貼れていませんが、”濃度”です。

密度は低濃度側の頻度が高く、合ってない感じがします。
これが、前の投稿に書いた疑問です。
シン・プレートでは、うまく補間できないのかもしれません。
「累積度数分布を求める問題なのですが」の回答画像5
    • good
    • 0
この回答へのお礼

ありがとう

ありがとうございます
多くの補足どもです!

お礼日時:2017/06/16 00:55

#2です。



私は、#3さんのご指摘とは逆で、
「水平分布から」ヒストグラムと累積分布グラフを描け。とあることから、
さらに、水平分布をキチンと補間して求めろ、というように解釈しました。

そこで数字を拾って、Rでプログラムを組んで、
シン・プレート・スプライン(薄板スプラインTsp)で補間して
もっと細かいグリッドから、ヒストグラムを求めて、
比較してみました(あくまで、個人的な興味)。

私のやっていることは、応力分布とか、機器内の温度分布など
実務の場面ではよくある話です。
#3さん式のヒストグラムだと、図の右側のハッチングの
200を超えていそうな部分の確率はわかりませんよね。
規制値以内なのか、どうか、です。
実務では、それを知りたいのです。

ところが、等高線が一致しません。

ご質問者に伺いたいのですが、
この等高線は、どういう補間法で描かれているのか説明はありましたか。

私も、Tsp以外に、gamやkrigingを試してみるつもりですが・・・。

ただ、ご質問の趣旨と外れているかもしれません。
そうであったら、スミマセン。
「累積度数分布を求める問題なのですが」の回答画像4
    • good
    • 0

#2さんは考えすぎでは。



問題文は、「頻度分布のヒストグラムと累積度数分布を示せ」であって、
「(粉塵濃度の)分布のヒストグラムと、その累積分布」を示せ、
ではありません。

「頻度」分布とか、累積「度数」分布、とかは、具体的な標本を与えられたときに、その標本に関しても分布(母集団に関する分布ではない)を描くものです。
標本が母集団からきちんと均一にサンプリングされたものかどうか、は関係ない話では。

というわけで、単純に、図上の数字を数えて、ヒストグラムを描いて、その累積度数から累積度数分布を求めればよいと思います。

そういう意味では、むしろ、図上で、観測点の密度が左右で違うこととか、等高線みたいのが描かれていることのほうが、ひっかけなのでは。
    • good
    • 0

企業で統計を推進する立場の者です。



うちの会社でも似たような問題を出しますが、
これは、データリテラシーというか、データを読む能力を試しています。
平均濃度を求めなさい、という問題に代えても狙いは同じです。

普通の人は、ただ単に、各観測値を列挙して、
そのままヒストグラムにする可能性があります。

ところが、図をよく見ると、図の左右ではデータ密度が違うのです。
密度が高いエリアの件数と密度が低いエリアの件数は、
同じ件数でもその重みが違います。

さらに意地悪なのは、右側のエリアの下から2行目は、
3か所が欠損になっていますよね。
ここも本来観測点として扱う必要があります。
(左側もやや間隔が広いようですが、これは無視しましょう)

これらを考慮して、単位面積あたりの観測点数で基準化して
ヒストグラムを作成するのです。

累積度数分布は、ヒストグラムを左から累積すれば作成できます。
ただし、縦軸を、0~1のスケールにすることをお忘れなく。

具体的な数値でお示ししたいのですが、値が読めません。
このことから、ご質問者は上記のようなアドバイスが欲しいだけ、
とお察ししました。

なお、ヒストグラムの縦軸を件数ではなく、密度とした時、
各棒の(横軸×縦軸)の和が平均になります。
つまり、この部屋の塵埃濃度の平均です。
データ密度を考慮しないヒストグラムを作成すると、
この平均値を間違うのです。
    • good
    • 0

>イマイチわからず



「イマイチ」ということは、8~9割は分かっているということですか?
だったら、それを書いてください。分からない「ひとつ」だけを教えます。

というより「全く分からない」ということなのでは?

この手の問題は、この質問がどのような文脈で何をしている過程で出てきたのかという「背景」が分からないと、何とも判断できないのですよ。質問された側は、あなた以上に状況が把握できませんから。
質問者さんは、何を提示して質問すれば回答してもらえるのかすら分かっていないように見えます。

ここでは、元のデータが「2次元のマップ」上に書かれているので、求められたものをどのような形態で書かなければいけないのか、よく分かりません。ここでやりたいのはどんなことで、そのための条件は何なのかを確認してください。

ということで、私にも「皆目分かりません」です。

問題で図に示されているものは「水平分布」いわゆる「値そのもの」「生データ」です。「粉塵濃度」という、何らかの「単位」のついた物理量なのでしょう。

求められている「頻度分布」は、通常は「各度数」を「全度数(総数)」で割った「全データ中の割合・比率」の分布です。この「粉塵濃度」の場合には、「全度数(総数)」に相当するものが何なのか分かりません。「濃度」なので、単純に「全データの合計」ではないのでしょう。基本は「何かを1として規格化した相対分布」ということです。

「累積度数分布」は、度数をある順番で累積していったものです。「濃度」をどのように累積した数値を求めたいのかが分かりません。
また、与えられたデータでは、この「ある順番」がどういう順番になるのか分かりません。何かデータに関するルールや約束事があるのではありませんか? 横方向には一定間隔ですが、縦方向には一部「ずれ」がありますね。これをどう扱うか。
なければ、質問者さんが「こういう原則で並べた」というルールを作る必要があります。


ひとこと言っておけば、「統計」とは、目の前の何らかの意味を持ったデータ群から規則性や法則性を見出し、特性を把握したり、背後にある見えない因果関係を推定したり今後の予測を行うための「ツール」です。「ツール」ですから処理そのものには意味を持たず、意味を持っているのは「データ群」の方です。その「データ群」について何も分からないのに、「ツール」さえ持ってくれば何かが分かる、何かができると考えるのは間違いです。
今回の質問も、「ツール」について聞く以前に、このデータが何なのか、どう処理して何を調べたいのかをよく確認してください。それが先決です。
また「ツール」ですから「使い方にたった一つの正解がある」というものでもありません。正解がたくさんあったり、「正解が存在しない」ということもあり得ます。正解がない場合には、自分で「最も妥当と判断」したやり方を採用するしかありません。(何が「最も妥当」かは、データの内容と何をしたいのかから決まります)
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!