たくさんの数の平均を求める方法について

Question

どうもこんにちは
研究でシミュレート用のプログラムを書いています

大量の数を入力し、その平均値を求めるコードを書いているのですが、
誤差ができるだけ小さくなる方法はないでしょうか
入力する数はdouble型の実数値あるいはint型の整数値で、
個数は1億程度です。
最初は1つずつ足していたのですが、整数型の場合はオーバーフローしてしまい、実数型の場合も徐々に加算する値が相対的に小さくなり、誤差が大きくなっていきました。
100万個ずつに区切って平均を求め、それを後で合計する方法も考えましたが、あまりきれいな方法になりません

なにかいい方法はないでしょうか

Tacosan · Accepted Answer

情報落ちを避ける方法は存在します.
誰が考案した方法なんだったっけ....

参考URL：http://www.cc.kyoto-su.ac.jp/~yamada/pB/float.html#johouot

SaKaKashi · Answer

一億個ですか。基本的に桁落ちを防止するには、小さい値から加算します。
可能なら、値を小から大の順に並べて加算します。

tatsu99 · Answer

#10です。
int型より更に精度が上がる方法が有りました。
double型は整数値であれば１５桁まで、正確に格納できます。
つまり、999999999999999(9が１５個)は、正確な数値として保持できます。

double型の合計を２つ用意します。
一方は小計用、他方は合計用とします。
どちらも０でクリアして開始します。
小計用に加算し続けます。
小計が99999999999999(9が14個)を越えたとき、その値を
合計に加算し、小計を０クリアします。
加算した時の小計は999999999999999(9が15個)以下のはずので、小計は
正確な数値を保持しています。
上記を最後まで行い、最後に小計を、合計に加算します。
合計には、今までの数値の総和が格納されています。

akayoroshi · Answer

#6で回答した者です。別法です。
合計を求める再帰関数
double sum( double x[], int i, int j) {
int k;
if ( i>=j ) return x[i];
k=i+(j-i)/2;
return sum(x, i, k)+sum(x, k+1, j);
}
を使って
average=sum(x, 0, n-1)/n;
で求めるというのはどうですか。
ループで求める場合の10倍ぐらいの所要時間がかかるかもしれませんが
データ数が1億個でも数秒以内でできると思います。

tatsu99 · Answer

>> それとも、int型かdouble型を使用しなさいという制約があるのでしょうか？
>そうです。
それでは、以下のような方法はいかがでしょうか。
合計を求める領域をint型とdouble型で用意します。（最初に０クリアしておきます）
int型に加算を繰り返していきますが、もし加算した結果がオーバーフローする場合は、加算する前のint型の値を、double型に加算します。
そして、int型を０クリアのち、int型に加算します。
上記の処理を繰り返していきます。
全て加算した後に、最後にint型の合計をdouble型に加算します。
そうするとdouble型に全ての合計が格納されています。
尚、オーバーフローしたかどうかは、加算前と加算後の値の大小を比較すれば判ります。加算前＞加算後の場合、オーバーフローが起こっていると判断します。

tatsu99 · Answer

>int64 は使用できないのです。
お使いのコンパイラとＯＳは何でしょうか。
たぶん使えると思いますが・・・・
それとも、int型かdouble型を使用しなさいという制約があるのでしょうか？

ICE_FALCON · Answer

No.5 の回答者です。１億個足すと精度が下がるとのことですが、 No.5のやりかたは、普通に足すのにくらべて31bit多く精度があります。でも今きずいたけど、unsignedにしか対応してないな・・・。 signedに対応すると・・・。こんな感じ。 int i,j; double a[32],b; int indt,abs_dt; int msk =0x4000000; for( i=0;i<32;i++) a[i]=0.; for (i=0;i<100000000;i++){ indt = rand();　//入力 abs_dt = (indt<0) ? ~indt : indt; for(j=0;j<31;j++){ if(abs_dt & (msk>>j)){ a[j] += indt; break; } } } for(i=0;i<32;i++) b+=a[i]; out = b/100000000.; 条件分岐が多いのなら、１ビット毎に分けているのを２ビットごととかにすれば、少なくなります。

usokoku · Answer

＞計算量が極端に多くなる処理は使えないのです。
だから、障害発生時のみの例外処理のある計算方法を答えたでしょう。
配列のアドレス(ポインター)の計算が増えますが、主記憶を内部レジスターに使っていたCPUが昔ありましたので、それぼとむちゃくちゃな計算方法ではありません。

＞変数もintやdoubleなど基本のものしか使えません。
１ライン
アセンブラ
は使えませんか。補助レジスター(自由に使えるのは2つか3つですが)を使えば、今のCPUは32bitなので64-98bit演算が可能。
インテル系ならばSP, BP, IPを保護して、SI, DIを入出力ポインターに割り振り、EAXからEDXの４レジスターを使って128bit演算が可能なはず。

akayoroshi · Answer

ほぼ同じ値の実数値が多数個あるなら、最初、単純に合計を求めて、それが大きな誤差を含んでいても、それを使って平均値を求め、次に、元の各データとこの平均値との差の合計を求める。それに先ほどの平均値をデータの個数倍したものを加えれば、もう少し精度が上がります。
　別のやり方としては、最初データを隣り合った2つずつの組にして、それぞれの組の合計を、もとのデータ数の半分の大きさの配列の各要素に入れる、というのを繰り返せば、配列の長さが1回ごとに半分になり、最後は1になって、元の全データの合計が得られる、というのはどうですか。

ICE_FALCON · Answer

例えば入力がint型 indtという変数で
int型が32bitなら

double a[32],b;
for(i=0;i<32:i++) a[i]=0.;

if(indt&0x80000000) a[0] += indt;
else if(indt&0x40000000) a[1] += indt;
else if(indt&0x20000000) a[2] += indt;
else if(indt&0x10000000) a[3] += indt;
else if(indt&0x08000000) a[4] += indt;
else if(indt&0x04000000) a[5] += indt;
else if(indt&0x02000000) a[6] += indt;
else if(indt&0x01000000) a[7] += indt;
...
else if(indt&0x00000002) a[30] += indt;
else a[31] += indt;

for(i=0;i<32:i++) b+=a[i];

でどうにかなるんでは？
つまり入力の精度によって、合計を求める変数を変えれば桁おちしにくいかも。

たくさんの数の平均を求める方法について

情報落ちを避ける方法は存在します.

一億個ですか。

この回答への補足

#10です。

#6で回答した者です。

>> それとも、int型かdouble型を使用しなさいという制約があるのでしょうか？

>int64 は使用できないのです。

この回答への補足

No.5 の回答者です。

＞計算量が極端に多くなる処理は使えないのです。

ほぼ同じ値の実数値が多数個あるなら、最初、単純に合計を求めて、それが大きな誤差を含んでいても、それを使って平均値を求め、次に、元の各データとこの平均値との差の合計を求める。

例えば入力がint型 indtという変数で

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　ほぼ同じ値の実数値が多数個あるなら、最初、単純に合計を求めて、それが大きな誤差を含んでいても、それを使って平均値を求め、次に、元の各データとこの平均値との差の合計を求める。