並列計算をMPIを用いて行っているのですが、
CPUを2個使ったの時に掛かった計算時間を1として、
4、8、16
と使用CPU数を増やしていくと、計算速度が
1.5、10、20
と、CPU数以上に伸びていきます。
普通、CPU数以上に早くなる事は無いと思っていたのですが、1つ当たりのCPUで使用するメモリ、配列サイズが少なくなったせいで計算速度が上がることがあった、あり得る事なのかな?と思ったのですが・・・実際にCPU数よりも計算速度の速度比が上がる事はあり得るのでしょうか?
計算結果をみると、正しいです。
No.4ベストアンサー
- 回答日時:
>1つ当たりのCPUで使用するメモリ、配列サイズが少なくなったせいで計算速度が上がることがあった、
CPUに内蔵されているキャッシュメモリに収まる程度にアクセスする配列のサイズが小さくなったときにはあり得ます。プログラムの高速化のテクニックの1つです。大きな配列を端から端まで何度も読み書きしているプログラムの場合に効果があります。
MPIでCPUに振り分けているのを、1つのCPUで順次実行するようにプログラムを書き換えると速度が上がるはずですので確認できます。
並列化ができているようですので、もしGPUとopenACCが利用できるのであればかなり速くなるように思います。
回答有難うございます。
確かに16CPUだと、一つに割り振られる配列数がかなり少なくなりますので、キャッシュメモリに収まるかもしれません。
今回、GPUとCPU並列の速度比較テスト中です。
差分計算ではあるのですが、計算時間が最も掛かるFORループからIF文を取り除けないので、どこまで早くなるのか・・・GPUは思ったよりも万能ではない、と感じています。
No.6
- 回答日時:
パイプラインの予想演算で、規則的なパターン例えばコーデックの様な物は失敗は少ないです。
一方不規則な演算では予測してパイプラインで並列演算をしても、予測が外れる場合が多くなります。
具体的にどうと言うのは私レベルでは説明が難しいですが、CPUベンチマークPASSMARK
http://www.cpubenchmark.net/cpu_list.php
Core i5 4670K@3.4GHz 7801
Core i7 4770@ 3.4GHz 9954
Pentium G3430 @ 3.30GHz 3378 HT無しTBなし
Core i3-4130 @ 3.40GHz 4858X(3.3/3.4)=4715 HT有りTBなし
においてHTを搭載していない、PentiumとCore i3もしくはCore i5とCore i7の同じCPU数で比較してみてHT搭載の方が、クロック当たりの性能が上になります、HTは3GHzのCPUが理論上1.5X2の筈なんですが、それ以上の効果が出る事から、スレッド数が多いほど最大限の効率を出していると言えます、つまり処理するスレッド(CPU数)が多いほど演算効率が良いと言えるのではないでしょうか、でなければインテルがHT機能を付けた事が無意味と言う事になります。
どの演算でという事はPassmarkのベンチを実際にPentiumとCore i3で行って比較するしかありません、このペンチは有料で、実は私の場合試用期間が過ぎているので試せませんので、どの演算の部分という事は検証できなく、お伝えできません。
No.5
- 回答日時:
No.4です。
>GPUは思ったよりも万能ではない、と感じています。
確かにそう思います。私自身はopenACCを使っていますので、CPU用に書いたプログラムをほとんど修正なしにGPU用プログラムにできるので、GPUとの比較をよくしますが、GPUの方が遅い場合がほとんどです。
書かれているようにループの中にif分があるとかなり苦しいです。見かけ上の計算量が十倍程度増えてもif分が取り除けるようであれば、そのコードの方がかなり速かったりします。ご参考に。
No.3
- 回答日時:
1CPUでの計算速度が問題で、演算を1CPUで行うと1つのタスクでパイプライン処理による演算がコケると、再演算になりタイムロスが生じます、それを解消するためにインテルは1CPUで2スレッド演算が出来るようにHT(ハイパー・スレッディング)を行い演算速度の向上を行っているので、1CPUでのロスタイムが大きい時は、マルチCPU、マルチタスクの分散処理の方が早く演算が求められる場合があります。
理想的状況では、1CPUの能力XCPU数を超える事はありません。
>理想的状況では、1CPUの能力XCPU数を超える事はありません。
今回が例外的なのか当方では判断できません・・・ロスタイムを生じているかどうか、どうやって判断すれば良いのでしょうか?
No.2
- 回答日時:
長時間にわたる高度なデータ演算で且つマルチスレッド最適化がされているものあれば普通のことです。
後は、いくつのプロセッサに最適化しているかだけの問題ですよ。答えとしては、処理内容によります。というのが正しいのかな?
これは、スレッド粒度とタスクの関係によるものです。1+1の計算を2つのプロセッサで分離して2倍になるかということと同じです。また、1+2の結果に100を掛けなさいで、性能は2倍になるでしょうか、下手に投機的な処理が働き2つのコアで1+2と出ていない結果A×100をされたら、処理を差し戻され、その分のクロックを失います。
その逆です。要は、処理が膨大な時にプロセッサに割り振る処理の内容をどれだけの粒度で与えるかによって、プロセッサ数倍以上の性能を発揮することがあるのです。
例えば、質問者様がリンゴ16個が入った箱のリンゴを一人で、検品し8つの箱に分けなさないと言われたとしましょう。大きさで特大、大、中、小の4種類と傷あるなしも、大きさで判断し、8つに分けるのです。
さあ、頑張って、箱は100箱あります。
何時間で終わるでしょうか?
その作業をする人が二人になると、どれだけ早くなるでしょうか?
4人になると・・・。
8人なら、16人なら・・・。
これを如何に早く終わらせるかは、それを指揮する人がどのような区分け方法を考えるかによります。プログラミングであれば、例えば最初に届いたリンゴの箱の中身を、1~16番まで決めて、1からひとつずつ大きさを確認し、その後、傷を見て、そして箱に分けるのが、普通です。
しかしまず、傷があるかないかだけで箱を一つ使って選別し、もう一度箱に戻し、大きさを次に分ける方法でも良い。
そもそも、100箱を調べるなら数箱を手分けして、いっぺんにやる方法もあるでしょう。それに選別の仕方でいくつかのステージ分けをすることもできます。
これが答えです。
例えば、例えば仕分け班が本来4人一組だと効率的な作業を、二人でやっていたなら、Aの作業が終わった、次にBの作業が必要になります。その都度準備が必要です。物差しと専用のめがね(ルーペ)がそれぞれ必要だと仮定した場合、その持ち替えだけで時間が掛かります。
しかし、4人になると、Bの作業は別の二人が行います。そうなると、物差し係とめがね係がそれらを交換しなくとも作業できるようになり、時間短縮になります。8人になると、4人1組の組が増えるだけですから単純に作業時間はその倍数になります。
この場合は、たぶん4人で一連のグループが終わる設計であると思われますが、1つの作業が終わったタイミングで、内容の入れ替えを行う例えば、着替えが必要だとしましょう。だとしたら、その時間は処理には含まれませんが、着替えるために時間が掛かります。Waitとなるのです。
しかし、専業の人がいれば、そこに渡せば次の処理が行われます。
だから、待ちはゼロとなり、その待っていた分の時間が無くなるため、速度は倍速以上になります。
ただし、今回は100箱の箱だったとして、100組以上(例えば200組)のスタッフが作業をしても、速度は上がりません。1+1を2つのプロセッサで行っても速度が向上しないのと同じ原理です。
これは、一般に長時間同じ処理(ループ)演算を分散して行えるように設計されたプログラムではよく起きることで、個人であれば動画エンコードや編集などが該当するぐらいしかありませんので、あまり知られていません。スレッドの粒度は、Hyper Threadingが登場した頃には、よく言われていましたけど、今では知らない人も多いですし、かなり自動化もすすでいますから、開発者でさえも理屈は知らない場合が多いのです。
いかがでしょうか?
丁寧な回答ありがとうございました。
すみません、あまり私の知識不足で仰る意味がよく分からなかったのですが、
早くなることもあるとのこと、良かったです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- CPU・メモリ・マザーボード CPUを冷やすとPCの速度は速くなるんでしょうか? 14 2022/05/28 01:31
- C言語・C++・C# 1. 仮想CPU「exmini」を使用して,「$dataからn減算する」プログラムを作成してください 2 2022/07/04 17:49
- 計算機科学 科学計算においてワークステーションを使うのはなぜ? 7 2023/02/16 19:21
- その他(ソフトウェア) F-BASICで計算中の実行が中途で勝手に止まり、大変困っています。 2 2023/03/02 16:15
- CPU・メモリ・マザーボード パソコンの性能を引き出すために 4 2022/12/29 17:05
- CPU・メモリ・マザーボード CPUがメモリ上に書かれている命令を実行した後の流れについての質問です。 1 2023/05/05 01:18
- アプリ iPhone処理速度について 最新iPhoneからcpu性能どれだけ上げでもあまりアプリを開く速度が 3 2023/02/07 03:48
- CPU・メモリ・マザーボード CPUに負荷をかけ続けることによる影響 3 2023/01/01 22:23
- CPU・メモリ・マザーボード PCスペック(CPUとGPUのバランス)について ボトルネックチェッカー (https://babl 3 2022/10/30 15:33
- その他(プログラミング・Web制作) プログラミング 処理速度 1 2022/11/25 11:05
関連するカテゴリからQ&Aを探す
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
Celeronはペンティアムより良く...
-
【Core2Duo以上って何でしょう??】
-
Core i57Y54というCPUについて
-
Let's note(レッツノート)の...
-
rtx3060に相性がいいcpuって何...
-
Nvidaについて詳しい方急募!
-
Windows 11の対象の CPU が Cel...
-
グラボのrtx2080tiってまだ現役...
-
BIOSでCPUクロックダウン
-
PCゲームでCPU使用率が全コアフ...
-
パソコンのCPU交換は難しいです...
-
steam グラボ を認識してくれま...
-
オーバークロックは寿命を縮め...
-
ビデオカードがYoutubeなどの映...
-
Macはインテル搭載でWindows11...
-
Core2Quad Q6600と同等の性能のCP
-
i7 3770K と i7 2700Kの違い
-
マザボののオンボード機能はグ...
-
ダヴィンチリゾルブ Davinci Re...
-
自作PCにLGA1156のマザボにCore...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
【Core2Duo以上って何でしょう??】
-
FLOPSとGHzの違いについて
-
core i7 を買ったのですが、速...
-
PLCのクロック周波数
-
フロップスとクロック周波数に...
-
並列計算の並列性がCPUの数が増...
-
Dell Inspiron 620S
-
CPUの性能の比較方法
-
L7800とSU9600の違いについて
-
CPUの処理能力について
-
ノート用CPUの性能比較について
-
Celeronはペンティアムより良く...
-
Pentium / Core Duo / Core 2 D...
-
Pentium4 3.8G と Core2 Duo E6...
-
パイプライン方式と非パイプラ...
-
PEN4とCELERON
-
CPUについて
-
CPUの快適度
-
Pentium4とcore2duoについて質...
-
HUAWEI MateBook X Proの購入を...
おすすめ情報