バブルソートの実行時間について

Question

バブルソートで降順、ランダム順に並んでいるデータを読み込ませて昇順に並び替える実行時間について質問です。

バブルソートにおける計算時間は、データ数が多いほど、並び替える回数が多いほど長くなるはずですが、実際に実行したところ、並び替える回数が多いはずの降順のほうがランダム順よりも早くなりました。

なぜこのようになるのですか？

よろしくお願いします。

S117 · Accepted Answer

CPUの分岐予測が原因ではないでしょうか。
※分岐予測についてはWikipediaを参照してください。

逆順のデータに対しては、常に入れ替え動作をします。
分岐予測の種類によりますが、常に「実行されるとCPUが予測している」なら、パイプラインを最大限に活用して高速な処理を実現できます。

一方、ランダムなデータであれば、分岐結果が一定ではないので予測の失敗が多発します。この場合パイプラインを生かし切れずに性能が劣化します。

今回の場合入れ替え動作自体がごく単純であるがために、予測に失敗することによるオーバーヘッドのほうが大きくなっているのでしょう。

期待する結果を得るには、入れ替え動作自体のオーバーヘッドが大きくなるようにする必要があります。たとえば大きな構造体を使うようにします。

ただし、普通大きな構造体などを利用する場合、ポインタを使います。ポインタであれば入れ替えのオーバーヘッドが小さくなります。
結局、
「適切な分岐予測をするCPUでのバブルソートでは、逆の順序に並べたデータの処理は、ランダムに並んだデータよりも早い」
という結論になります。

参考URL：http://ja.wikipedia.org/wiki/%E5%88%86%E5%B2%90%E4%BA%88%E6%B8%AC

asuncion · Answer

＞このif文を何回実行しているかを数える方が、

これは正確な回答ではありませんでした。
「このif文を実行した結果が何回真になったか」が正しいです。
つまり、降順にきれいに並んでいるデータと
ランダムに並んでいるデータとで、
実際の入れ替え処理を何回実行したか、を比べてみては？ということです。

asuncion · Answer

ソート後のデータを出力するよりも、

＞if(str[j-1]>str[j]){

このif文を何回実行しているかを数える方が、
問題解決にとって有益かもしれません。

asuncion · Answer

＞バブルソートの部分のソースを提示させていただきます。

提示された箇所以外はこちらで勝手に書いてもいいのですか？
当方で、あなたのところとできるだけ同じ条件で実験するためには、
お手持ちのコードを「そっくりそのまま」載せてくださる方がよいと思います。
いかがでしょうか。

asuncion · Answer

どういったソースコードで実験されたかを提示してください。

BLK314 · Answer

>なぜこのようになるのですか？

測定方法（データ数はいくつなのか？、
１回の測定か0、何回かの平均値か？等）、
及び測定環境(CPU, メモリ、OS等)が明示されていないので、
原因は分かりません。

可能性をあげることはできます。

例えば、降順、ランダム、１回きりの場合で
Windows上でシングルCPU(HTもない)で測定した場合に、
たまたま、ランダム測定中に別プロセスにタスク・スイッチが切り替わった。
GetTickCount()での時間測定なので、
他のタスク実行時間も含めて評価してしまった。

とか、

データ数がCPUのキャッシュに全部収まる範囲だったので
後に実行した場合は、キャッシュアクセスで済んでしまった。

等々

何回かの平均をとらないと、比較に耐えるデータにはならないと
おもいますが、平均をとったかいなか文章からは読み取れません。

条件を明示してください。

バブルソートの実行時間について

CPUの分岐予測が原因ではないでしょうか。

＞このif文を何回実行しているかを数える方が、

この回答への補足

ソート後のデータを出力するよりも、

＞バブルソートの部分のソースを提示させていただきます。

この回答への補足

どういったソースコードで実験されたかを提示してください。

この回答への補足

>なぜこのようになるのですか？

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング