【無料配信♪】Renta !全タテコミ作品第1話

2山のヒストグラムにおいて、
その2山が完全に離れているとします。
その時、2山間にしきい値を引くとしたらどの位置が妥当なところなのでしょうか?
妥当とは、
山(1)がしきい値を超える確率と山(2)がしきい値を超える確率の和が、
最も小さい状態のことです。確率はエクセルのNORMDIST関数で求めました。

ちなみに、
山(1)の平均値μ1:236
山(1)の標準偏差σ1:17.35
山(2)の平均値μ2:467
山(2)の標準偏差σ2:26.05
です。

最初は(μ1+a*σ1)=(μ2-a*σ2)という式をたて、
aについて解き、
μ1+a*σ1をしきい値としたのですが、
山(1)がしきい値を超える確率と、
山(2)がしきい値を超える確率を足してみると、
μ1+a*σ1より少しずれたところに確率が最も小さくなるところがありそうです。
ちなみにa=5.34248…で、
実際はa'=5.16056…のようです。
この5.16056…を計算で出せる方法はないでしょうか?

よろしくお願いいたします。

このQ&Aに関連する最新のQ&A

A 回答 (4件)

> お手数ですが、"二つの正規分布の確率密度が同じになる点、つまり赤い線と青い線が交差する点を求める式"を教えていただけると助かります。



これについては、添付画像をご覧ください。

No.2への返答で理解しました。
それなら一致しませんね。
こちらでも計算してみたのですがまだ一致しませんが、おそらく精度の違いのためでしょうか?

どの方法が最も妥当であるかは、考え方により変わると思いますが、得られたデータがどちらの山に属するのかということを考えた場合、私なら確率密度が同じになる点337.4185を閾値とするでしょう。
例えば337.42という値が得られた場合、その確率密度から山(2)の方がより出やすいので山(2)から得られた可能性が高いと考えます。

ところで、それぞれの値の求めるにはExcelでもできるでしょうが、Rというソフトウェアを紹介しておきます。
フリーの統計ソフトでCUIのためとっつきにくいところはありますが、慣れると使いやすいです。
ダウンロードはこちらから http://www.r-project.org/
日本語による使い方    http://cse.naro.affrc.go.jp/takezawa/r-tips/r2.h …

下手な関数ですが、3通りの閾値を求める関数のソースも載せておきます。


###### ここから ######

# 確率密度が一致する点を求める関数
threshold1 <- function(m1, s1, p1, m2, s2, p2)
{
m <- m2 - m1
s <- s2 / s1
p <- p2 / p1
if (s1 == s2) # 本当はこういう比較はよくない
m1 + m2 + 2 * s1^2 * log(p / s) / m
else
(-m / s1 + s * sqrt((m / s1)^2 + 2 * (s^2 - 1) * log(s / p))) / (s^2 - 1) * s1 + m1
}

# 確率密度の和が最も小さくなる点を求める関数
threshold2 <- function(m1, s1, p1, m2, s2, p2)
{
optimize(function(x) p1 * dnorm(x, m1, s1) + p2 * dnorm(x, m2, s2), interval = c(m1, m2))
}

# 山(1)で閾値を超える確率と山(2)で閾値より低くなる確率の和がもっとも小さくなる点を求める関数
threshold3 <- function(m1, s1, p1, m2, s2, p2)
{
optimize(function(x) p1 * pnorm(x, m1, s1, lower.tail = FALSE) + p2 * pnorm(x, m2, s2), interval = c(m1, m2))
}

###### ここまで ######

###### 実行例 ######
> threshold1(236, 17.35, 0.9863, 467, 26.05, 0.0133)
[1] 337.4185
> threshold2(236, 17.35, 0.9863, 467, 26.05, 0.0133)
$minimum
[1] 338.529

$objective
[1] 1.657723e-09

> threshold3(236, 17.35, 0.9863, 467, 26.05, 0.0133)
$minimum
[1] 337.4186

$objective
[1] 6.845272e-09
「2山のヒストグラムの間のしきい値は・・・」の回答画像3
    • good
    • 0

訂正


threshold1の中で
> if (s1 == s2) # 本当はこういう比較はよくない
> m1 + m2 + 2 * s1^2 * log(p / s) / m
に間違いがありました。
以下が正しいソースです。

# 確率密度が一致する点を求める関数
threshold1 <- function(m1, s1, p1, m2, s2, p2)
{
m <- m2 - m1
s <- s2 / s1
p <- p2 / p1
if (s1 == s2) # 本当はこういう比較はよくない
(m1 + m2) / 2 - s1^2 * log(p / s) / m
else
(-m / s1 + s * sqrt((m / s1)^2 + 2 * (s^2 - 1) * log(s / p))) / (s^2 - 1) * s1 + m1
}
    • good
    • 0
この回答へのお礼

本当にご丁寧にありがとうございます。
計算式は恥ずかしながら、ほとんど理解できなさそうです。
logとか平方根とかをちゃんと勉強しないとダメですね。
高校の数学で習った気がしますが、必要性を感じなかったため、
真剣にやらなかったツケが今になってくるとは・・・orz
確率密度の概念も勉強します。

ありがとうございました。

お礼日時:2009/06/27 18:33

> 山(1)のデータは252,973件 (98.63%)


> 山(2)のデータは  3,419件 ( 1.33%)

1:1の分布ではなかったのですね。
上の割合で再計算してみると、
谷間の最も確率密度が低くなる点は338.5289で、二つの正規分布の確率密度が同じになる点は、谷間のところでは337.4185となるようです。
割合を考えてみてもa'=5.16056…(μ1+a'*σ1=325.5357)と一致しませんでした。
あなたの詳しい計算方法を教えていただければ、一致しない理由がわかるかもしれません。

今回、図を添付してみました。
赤い線が山(1)の正規分布、青い線が山(2)の正規分布、黒い線が山(1)及び(2)の混合分布となります。
確率密度は図でいうと縦軸の高さ(density)を意味します。
確率は横軸の線とグラフで囲まれた面積となります。
二つの正規分布の確率密度が同じになる点、つまり赤い線と青い線が交差する点は、求める式があります。必要であれば記載しますがどうしましょう?
谷間の最も確率密度が低くなる点、つまり黒い線の谷間のところで一番低くなる点は、コンピュータ等で数値計算する必要があります。
「2山のヒストグラムの間のしきい値は・・・」の回答画像2
    • good
    • 0
この回答へのお礼

丁寧な回答ありがとうございます。
もう一度計算したら、しきい値337.7999999で確率の総和が最も低そうです。しかし、確率密度が最小になる点:338.5289、確率密度が同じ値になる点:337.4185ともずれているようです。
確率はエクセルのNORMDIST関数で求めました。
山(1)のしきい値以上になる確率は、
=(1-NORMDIST(X,μ1,σ1,TRUE))×0.9863・・・・I
山(2)のしきい値以下になる確率は、
=NORMDIST(X,μ2,σ2,TRUE)×0.0133・・・・II
で求めました。Xはしきい値です。
しっかりした計算方法があればよいのですが、
自分はエクセル上でこつこつしきい値を変えて、
IとIIの総和が小さくなる点を探しています。
そこが、不良の発生確率が最も小さいところだと思うので・・・

お手数ですが、"二つの正規分布の確率密度が同じになる点、つまり赤い線と青い線が交差する点を求める式"を教えていただけると助かります。
何卒、よろしくお願いいたします。

お礼日時:2009/06/26 09:59

いくつか疑問点があります。



まず一つ目、

> 山(1)がしきい値を超える確率と山(2)がしきい値を超える確率の和が、最も小さい状態のことです。

とのことですが、確率ではなく確率密度ではないですか?
確率ですと+∞で閾値を超える確率が最も小さくなるのですが…

二つ目、その2つの山は1:1の割合と考えていいのでしょうか?

三つ目、

> 山(1)の平均値μ1:236
> 山(1)の標準偏差σ1:17.35
> 山(2)の平均値μ2:467
> 山(2)の標準偏差σ2:26.05

これらは既知の値なのでしょうか?
ヒストグラムから推定したのであれば、どう推定したのでしょうか?

とりあえず、N(236, 17.35^2)とN(467, 26.05^2)の1:1の混合分布とすると、谷間の最も確率密度が低くなる点は329.9901で、二つの正規分布の確率密度が同じになる点は、谷間のところでは329.1408となるようです。
あなたが計算されたa'=5.16056…(μ1+a'*σ1=325.5357)と一致していないのは、計算方法が異なるからでしょうか、それとも数値の丸めが原因なのでしょうか?
    • good
    • 0
この回答へのお礼

回答ありがとうございます。
すみません。情報が不足していました。
全データ数は256,478件有り、内訳は以下の通りです。
山(1)のデータは252,973件 (98.63%)
山(2)のデータは  3,419件 ( 1.33%)
山(3)のデータは    77件 ( 0.03%)
山(4)のデータは     9件 ( 0.004%)
まず、山(1)と山(2)の間にしきい値を引きたくて質問しました。
平均と標準偏差はデータから計算した値です。

確率密度について調べようとしましたが、
積分の概念が難しくて理解できませんでした。
上記の山の割合と確率密度を使えば、下の値は得られますか?
a'=5.16056…(μ1+a'*σ1=325.5357)

>> 確率ですと+∞で閾値を超える確率が最も小さくなるのですが…
確かに1つの山で考えると+∞か-∞のところが小さくなりますが、
2山の間に引くしきい値となると、2山の間のどこかになると思うのです。この考えが間違っているということですか?

よろしくお願いいたします。

お礼日時:2009/06/25 09:50

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q2つの正規分布を合成したらどうなるのでしょうか?

現在大学の研究の過程で統計学を学ぶ必要がでてきました。僕自身は統計学に詳しくはないので知識のある方の回答は非常に助かります。
どうかご教授よろしくおねがいします。


平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが



例えば互いに独立で

国語の平均点、分散を(μ1,σ1)としての正規分布f(国語)
数学の平均点、分散を(μ2,σ2)としての正規分布f(数学)

とした時の国語と数学の合計得点の分布f(国語+数学)はどのように表せばよいのでしょうか?

もしμ3=μ1+μ2,σ3=σ1+σ2のように平均も分散も和で考えてよいのなら

f(国語+数学)=1/((√2π)σ3) exp-{((x-μ3)^2)/2σ3^2}

が答えだと思っているのですが、それとは別のやり方で



f(国語)=1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}と
f(数学)=1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}をたたみこみ積分すれば答えがでるのではないかと考えています。

しかし、僕の数学の知識ではこれができなくて困っています。ガウス積分の公式を使ったりしなければいけないのではないかとも考えいるのですが行き詰っています。

アドバイスよろしくお願いいたします。

現在大学の研究の過程で統計学を学ぶ必要がでてきました。僕自身は統計学に詳しくはないので知識のある方の回答は非常に助かります。
どうかご教授よろしくおねがいします。


平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが



例えば互いに独立で

国語の平均点、分散を(μ1,σ1)としての正規分布f(国語)
数学の平均点、分散を(μ2,σ2)としての正規分布f(数学)

とした時の国語と数学の合計得点の分布f(国語+数学)はどのように表せばよいのでしょうか?

...続きを読む

Aベストアンサー

> 平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが
一般的には分散をσ^2と表し、標準偏差はその平方根でσと表します。
質問者さんが示された確率密度関数は、平均 μ、分散 「σ^2 」の正規分布のものです。分散と標準偏差の扱いをもう少しきちんとしましょう。

> μ3=μ1+μ2, σ3=σ1+σ2のように平均も分散も和で考えてよいのなら
2つの確率変数 X, Y があり、それぞれの平均と「分散」がμ1, (σ1)^2, μ2, (σ2)^2 であるとします。確率変数 Z を Z = X + Y で定め、Z の平均と「分散」をμ3, (σ3)^2 とすると・・・

μ3 = μ1 + μ2
は、X, Y がどのような分布であっても(X, Y が異なる分布であっても)成立しますし、X, Y が互いに独立であるか否かに関わらず成立します。
また、X, Y が互いに独立であれば(それらの分布によらず)、
(σ3)^2 = (σ1)^2 + (σ2)^2
が成立します。(このとき Z = X + Y の「標準偏差」σ3 は、σ3 = √( (σ1)^2 + (σ2)^2 ) )

> f(国語+数学)=1/((√2π)σ3) exp-{((x-μ3)^2)/2σ3^2}
> が答えだと思っているのですが
X, Y が互いに独立な確率変数であり、共に正規分布に従うならば、X + Y もまた正規分布に従うという事実は確かにありますが、これは正規分布の「再生性」と呼ばれる特別な性質であることを理解していなければなりません。その点、大丈夫ですか?

> それとは別のやり方で
> f(国語)=1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}と
> f(数学)=1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}をたたみこみ積分すれば答えがでるのではないかと考えています。
上述したように、正規分布の再生性を示す必要があるならば、畳み込み積分でそれを示すのが一法なのであって、何も「別のやり方」ではありません。
案ずるより計算するが易しです。式の整理が面倒なだけで、特別な知識は不要です。
f(x) = 1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}
g(x) = 1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}
h(x) = ∫f(t) g(x - t) dt
  = 1/(2πσ1 σ2) ∫exp{ - (t - μ1)^2 / (2σ1^2) - (x - t - μ2)^2 / (2σ2^2) } dt
  epx( ) の指数部を t で平方完成して
  = 1/(2πσ1 σ2) ∫exp{ - (t - 何ちゃら )^2 / (2σ1^2 σ2^2 / (σ1^2 + σ2^2)) - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) } dt
  = 1/(2πσ1 σ2) exp{ - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) } ∫exp{ - (t - 何ちゃら )^2 / (2σ1^2 σ2^2 / (σ1^2 + σ2^2))} dt
  = 1/√(2π(σ1^2 + σ2^2)) exp{ - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) }
  (∵ ∫ exp ( - (t - A)^2 / 2B^2 ) dt = √(2π) B )
μ3 = μ1 + μ2, σ3^2 = σ1^2 + σ2^2 とおけば
h(x) = 1/(√(2π) σ3) exp( - (x - μ3)^2 / 2 σ3^2 )
途中、「何ちゃら」の部分は省略してますので、興味があれば追っかけてみてください。

なお、本件は確率論において、ごくごく基本的な事項です。
もし、これから確率統計を使って研究をされるのならば、このような件を簡単に質問して済ませるのは危うい感じがします。ちゃんと書籍を読まれ、その上で質問されるのが宜しいでしょう。

> 平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが
一般的には分散をσ^2と表し、標準偏差はその平方根でσと表します。
質問者さんが示された確率密度関数は、平均 μ、分散 「σ^2 」の正規分布のものです。分散と標準偏差の扱いをもう少しきちんとしましょう。

> μ3=μ1+μ2, σ3=σ1+σ2のように平均も分散も和で考えてよいのなら
2つの確率変数 X, Y があり、それぞれの平均と「分散」がμ1, (σ1)^2, μ2, (σ2)^2 であるとします。確率変数 Z を Z = X + Y で定め、Z ...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Q【至急!】確率統計について教えてください。

すみません。確率統計についてあまり理解できていないのですが、必要に迫られていますのでどなたか教えてください。

2つの正規分布グラフの端同士が少し重なっているとします。
この重なっている部分の発生する確率の求め方が知りたいです。
出来ましたらエクセルで計算する方法を教えていただけますと助かります。

Aベストアンサー

> > =NORMDIST(0,2.82,0.86,TRUE)=0.002145753
> ここから0.052%に行き着く計算がよくわかっていません・・。

計算自体は、
∫[-∞,0] (2π*0.86^2)^(-1/2) e^{-(x-2.82)^2/2/0.86^2} dx ([ ]が積分範囲)
を計算しているはずです(計算の中身は知りません)が、0.2%にしかならないとは…!

Excelのバージョンは幾つでしょうか?
もし、2010なら「norm.dist」を試してみてください。
(同じ計算方法を使用しているなら駄目ですが)
それで駄目ならExcelの使用を諦めてください。
Excelは統計解析に向いていません。
今のバージョンはましになっていますが、「Excel」、「 関数」、「間違い」等で検索してみるとどんなに駄目なのかがわかります。


二つのフリーソフトで計算した結果を記載します。

まずは、統計ソフト R 2.11.0 の場合
入力:pnorm(0, 2.82, 0.86)
出力:0.0005207494

次に数式処理ソフト Maxima 5.17.0(とwxMaxima 0.8.0) の場合
入力:float(cdf_normal(0, 2.82, 0.86));
出力:5.2074941964752597*10^-4

でどちらも0.052%になりました。

或いは正規分布表で2.82/0.86≒3.28以上になる確率を求めても良いですが、せいぜい0.05%であるとしかわからないでしょう。

> > =NORMDIST(0,2.82,0.86,TRUE)=0.002145753
> ここから0.052%に行き着く計算がよくわかっていません・・。

計算自体は、
∫[-∞,0] (2π*0.86^2)^(-1/2) e^{-(x-2.82)^2/2/0.86^2} dx ([ ]が積分範囲)
を計算しているはずです(計算の中身は知りません)が、0.2%にしかならないとは…!

Excelのバージョンは幾つでしょうか?
もし、2010なら「norm.dist」を試してみてください。
(同じ計算方法を使用しているなら駄目ですが)
それで駄目ならExcelの使用を諦めてください。
Excelは統計解析に向いていません...続きを読む

Q正規分布に従わないと標準偏差の算出は向かないでしょうか?

正規分布に従うとは、平均値の分布が多いという意味でしょうか?

日々変わるデータの点数が凸のような分布でなく、平均値付近が少ない
凹のようなデータの集合だと、標準偏差を算出し正規分布を使い
30%以下の人や70%以上の人を毎日抽出するような用途には
向かないのでしょうか?

Aベストアンサー

まず、正規分布に従うとは、「分布が正規分布のグラフと同じ形をする事」をいいます。
そのため、平均辺りが多くても△のような分布グラフだったり、
左右が対象でないと、「正規分布に従う」とは言いません。

そのため、試験の成績などは、「正規分布に近い」だけであって、
「正規分布に従っている」のではありません。

つまり、「偏差値」を使うべきかどうかは、偏差値の「分かりやすさ」と、
その分布が正規分布に近いかどうかの判断になります。



例えば、凹のようなデータでも、両端がなだらかになっていれば、そこそこ偏差値も使えます。

逆に、両端が崖のようになっていると、偏差値を使うのは控えた方がいいでしょう。
(たとえば、30点や、80点の人は多いけど、29点以下や、81点以上がいないなど)

また、分布が左右対称でない場合も、使用をやめた方がいいでしょう。
平均値と、中央値(順位が真ん中の人の値)が離れると、偏差値の感覚的な値とは
ずれてきます。



いずれにしても、ある程度のデータがあるのであれば、そのデータで
やってみるのが一番です。

出るべき結果と大きなずれがなければ、分かりやすいので使ってしまっても
いいのではないでしょうか。

試験の結果なんかでも、山が二つあったり、左右に偏っている事なんて
よくあります。

それでも、偏差値が、それなりに機能していますから、まずはやってみるのが
いいのではないかと思います。

まず、正規分布に従うとは、「分布が正規分布のグラフと同じ形をする事」をいいます。
そのため、平均辺りが多くても△のような分布グラフだったり、
左右が対象でないと、「正規分布に従う」とは言いません。

そのため、試験の成績などは、「正規分布に近い」だけであって、
「正規分布に従っている」のではありません。

つまり、「偏差値」を使うべきかどうかは、偏差値の「分かりやすさ」と、
その分布が正規分布に近いかどうかの判断になります。



例えば、凹のようなデータでも、両端がなだら...続きを読む

Qエクセルで度数分布と正規分布を重ね合わせて表示する方法

エクセルで度数分布と正規分布を重ね合わせて表示する方法
あるサンプルデータから求められる平均と標準偏差を用い、正規分布曲線をエクセルで作成することはできます。また、そのサンプルデータの度数分布を作成することもできます。エクセルでこの両者を重ね合わせて表示することはできるのでしょうか?
グラフの種類>ユーザー設定>2軸上の折れ線と縦棒でやってもうまくできません。
ご存じの方がおられましたら、ご教示ください。

Aベストアンサー

>グラフの種類>ユーザー設定>2軸上の折れ線と縦棒

通常はそれでいいんですけどね。
添付図はそれを選んだ所までのスクリーンショットですが,完了すればプレビューで見ている通りのグラフがそのまま作成できます。

実際はその後,折れ線を右クリックしてもう一度グラフの種類を選び,散布図の「平滑線でつないだマーカ無し」を選んでやると,またそれっぽくなります。



#手作りするには
1.集合縦棒でとりあえず2本ずつ棒が立ったグラフにする
2.正規曲線の棒をWクリック,データ系列の書式設定で軸を第2軸に載せ替える
3.正規曲線の棒を右クリック,グラフの種類から散布図の平滑マーカ無しに変更する
でも同じように作成できます。

Qエクセルで極大値を拾うには

 今エクセルで、グラフ化すると、
横軸:時間 
縦軸:電圧
で sinカーブのような波形となる数値データがあります。この振幅(山)の大きさは時間によって微妙に違います。振幅の平均値を取りたいのですが、何かいい方法ありますか?要は半周期での極大値を拾って、それを平均すればよいのですが方法が分かりません。

Aベストアンサー

グラフの元となったシートで、極大値は「左側のセルより大きく、かつ右側のセルより小さい」と言えると思います。

従って、a列に時刻、b列に電圧が入力されているとして
c2セルに
=if(and(b2>=b1,b2=<b3),b2,"")
と入力して、そのセルを最終行の1行前までコピーしたらよいと思います。

そしてc列の平均を取ればいいでしょう

極小値はd列に
=if(and(b2>=b1,b2=<b3),b2,"")
ですね。

なおb1にはダミーで数字のZEROを入れて下さい。

平均は
=AVERAGE(c2:cX) Xは最終データ行数
で求められます

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Qガウシアン関数へのフィッティングについて

現在、ガウシアン関数y=a+b*exp(-(x-c)^2/d^2)に下記のようなデータを使用しフィッティングを行いたいのですが、
手法やパラメータa,b,c,dの求め方がわかりません。
どなたか教えていただけませんか。
よろしくお願いいたします。
(x,y)={
48.8006092
48.8056105
48.8105942
48.8156000
48.8206021
48.8256127
48.8306131
48.8356169
48.8406146
48.8456077
48.8506141
48.8556236
48.8606115
48.8656179
48.8706296
48.8756176
48.8806272
48.8856294
.....}

Aベストアンサー

Excelしか使えないのであれば、ソルバーを使って、以下の手順で「残差2乗和」を最小とするパラメータ a, b, c, d を探すと良いでしょう。ただし、パラメータの初期値があまりかけ離れていると変な値に収束するか解が見つかりません。a, b, c は元のデータのグラフから見当をつけられると思います( a はベースライン高さ、b はピーク高さ、 c はピーク位置x)。d は直感では見当をつけられないので、(ピークの半値全幅)/1.67 で計算してそれを初期値としてください。

【ソルバーを使った最小自乗法】
(1) Excelのメニューの [ツール] → [アドイン] で [ソルバーアドイン] の左側の□をチェックして OK
(2) A列に x データ、B列に y データを書き込む( x は A1 から、y は B1 から下方向に書き込む)
(3) D1からD4にフィッティングパラメータの初期値を書き込む(a → D1、b → D2、c → D3、d → D4)
(4) セル C1 に以下の式を貼り付ける(これをCopy&Paste)
   =($D$1+$D$2*EXP(-1*(A1-$D$3)^2/($D$4)^2)-B1)^2
(5) セルC1をコピーして、C2以下の全データ分のC列にペースト(これでC列=「残差2乗」となる)
(6) セルD5 に =sum(C1:C??)と書く(??はC列最後の行番号)
(7) Excelのメニューの [ツール] → [ソルバー] で [目的セル」を $D$5、[目標値] を 最小、[変化させるセル]を $D$1:$D$4 とする。この意味は、「セルD1~D4に書かれている数値を変化させて、 D5セルを最小となるようにする」ということです。
(8) ソルバーウィンドウのオプションボタンをクリック → 制限時間を 1000、反復回数を 1000、精度・公差・収束をすべて 1e-10 とし、OKをクリック
(9) ソルバーウィンドウの実行ボタンをクリック
(10) フィッティングパラメータが見つかったら、「最適解が見つかりました・・」と出るので、OKをクリック
(11) ExcelのセルD1~D4にフィッティングパラメータが書き込まれている

なお、精度・公差・収束の値をあまり小さくすると収束しないので、もしデータのばらつきが大きくて収束しないときは、これらの値を適宜、大きくしていってみてください。ご質問のデータはGaussianのほんの1部でしたのでこちらで実験することはできませんでした。ちなみに私は通常、カレイダグラフというグラフソフトで任意関数のフィッティングをやっています。

Excelしか使えないのであれば、ソルバーを使って、以下の手順で「残差2乗和」を最小とするパラメータ a, b, c, d を探すと良いでしょう。ただし、パラメータの初期値があまりかけ離れていると変な値に収束するか解が見つかりません。a, b, c は元のデータのグラフから見当をつけられると思います( a はベースライン高さ、b はピーク高さ、 c はピーク位置x)。d は直感では見当をつけられないので、(ピークの半値全幅)/1.67 で計算してそれを初期値としてください。

【ソルバーを使った最小自乗法】
(1...続きを読む

Qピークの検出方法

ある離散時系列データf(x)があったとき、単純に考えれば
f'(x)=f(x+1)-f(x)<0.0001,f''(x)=f'(x+1)-f'(x)<0
となるxを求めればピークのxが検出できると思いますが、
f(x)が滑らかでない場合はどんな方法でピークが検出できますでしょうか?

Aベストアンサー

>f'(x)=f(x+1)-f(x)<0.0001, f''(x)=f'(x+1)-f'(x)<0 ....

基本はこれでOKなので、「f(x)が滑らかでない場合」に引っかかりそうなケースを考えてみましょう。

[誤検出しそうな例]
(1) サンプリングしたデータでは、ピークでの増分が 0.0001 未満とは限らない。(つまり、とんがり気味のピークは検出できない)
(2) 真のピークではなく、裾野の細かいうねりまで検出するおそれがある。

[対策例]
(1) 単純に、f'(x)が正から負へ極性反転したらピークとみなす。
(2) #1 さんの「平滑化」処理を適用する。
(2)' あるいは、f'(x)が正から負へ極性反転したピークの高さに閾値を設定しておく。(つまり、細かなピークは無視する)

ピーク検出には、適用分野に応じたノウハウが多数あるようです。

Q±4σに入る確率について教えてください

ウィキペディアの検索より、
確率変数XがN( μ, σ2)に従う時、平均 μ からのずれがσ以下の範囲にXが含まれる確率は68.26%、2σ以下だと95.44%、さらに3σだと99.74%となる。
と分かりました。

そこで
4σ、


の場合確率はどうなるか教えてください。
よろしくお願い致します。

Aベストアンサー

Excel で NORMDIST を使い、平均 50、標準偏差 10 (いわゆる偏差値)で計算してみましたら、次のようになりました。

 σ 0.682689492137086
2σ 0.954499736103641
3σ 0.997300203936740
4σ 0.999936657516326
5σ 0.999999426696856
6σ 0.999999998026825
7σ 0.999999999997440
8σ 0.999999999999999
9σ 1.000000000000000

Excelの関数の精度がどの程度のものか分かりませんが、9σで100%になりました。


人気Q&Aランキング