メモリアクセス時間の計測方法

Question

今あるソースを書いていますが、計算時間が多くを占めるのか、メモリアクセスが多くを占めるのかを調べたいです。その方法としてアセンブラで記述し、load/store命令、あるいはadd等計算命令をそれぞれ計って足し合わせる、という方法が考えられますが、大きなソースコードだと大変なので、定量的に算出したいと思っています。

例えば、以下のようなコードの
//----- ～ //-----
の部分に対しては、計算に対してメモリアクセスがほとんどを占めるため、計算時間はほぼ0であると考えることで、メモリアクセスの時間を概略計測することはできると思います。しかし、レジスタにデータを置いてひたすら計算してからメモリに戻す、という場合には同手法は使えないと思いますが、そのような場合にはどうやって計測すれば良いでしょうか？


#include <stdio.h>
#define NUM_ITER (1000)
float a[NUM_ITER], b[NUM_ITER], c[NUM_ITER];
int i;
//-----------------------
for(i=0; i<NUM_ITER; i++){
     c[i] = a[i] + b[i];
}
//-----------------------

int j;
for(j=0; j<NUM_ITER; j++){
    printf("%f
", c[i]);
}

7o8 · Accepted Answer

> ５×12=60clk
> の誤りでしょうか？

すんません。間違えてました。（^_^;;;
＃さいきん、誤字が多くて自分でもまいっています（×o×;）

7o8 · Answer

そーいえば、おもしろいツールを思い出しました。
午後ベンチと言われるものですが、これはベンチの他、アクセスに要した
クロック数も確認できます。
因みに私の環境はこーなります。
=======================================
--- GogoWinBench 1.28 [2009/10/18 23:29:03] ---
[OS] Windows NT 6.1 (6.1.7100)
[CPU] AMD Phenom(tm) II X4 940 Processor * 4 / 3010.2MHz
 AuthenticAMD
 AMD Phenom(tm) II X4 940 Processor
 1/0/0/15/4/2
 FPU TSC MSR CMOV MMX MMXE SSE SSE2 3DN 3DNE HT(4)
 L1CodeCache  64KB, 2Way
 L1DataCache  64KB, 2Way, 89732.76MB/s, 3clk
 L2Cache      512KB, 16Way, 22515.62MB/s, 12clk
 Memory       4096MB, 9234.48MB/s, 49clk
[DLL] GOGO DLL ver. 2.39b for only bench (Feb 28 2002)
=======================================
core系、athlon 64以降は大体 IPC限界は2.5程度とらしいので
とりあえず、命令クロック数＝1÷2.5×命令数、メモリはローカル変数で
扱うのであればキャッシュに全て入る（規模にもよりますが）として
2次キャッシュアクセスクロック数×アクセス回数で計算してみては
如何でしょうか？

-------------------------------------------
for(i=0; i<NUM_ITER; i++){
c[i] = a[i] + b[i];                           → メモリアクセス3回、命令1回(計算)
}                                                    → メモリアクセス2回、命令3回(計算、判断、分岐)
-------------------------------------------
アセンブリコード見ていないので、適当なんですが、上記のような
アクセスに分類されるとすれば、１ループで起こるメモリアクセスは5回、
命令は４回、でそれぞれ必要なクロック数は以下のようになるのでは
ないでしょうか？

メモリ(キャッシュ)アクセス時間：５×14=70clk
命令実行時間　　　　　　　　　：４÷2.5＝1.6clk

命令：メモリ(キャッシュ)アクセス時間＝1：43.75

# L1データキャッシュは3clkなのでもっと速いんですが、64kBの2wayってことは
＃ 32kB×2ってことで、そこにユーザプログラムがのっかることってないような気がするので
＃ 考えないことにしました。（^^;

IPCが2.5っていうのは限界値であって、もっと低いかも？
詳しく乗っているサイトもなかったので2.5をそのまま採用しましたが、
いずれにしろ、メモリアクセスが例えキャッシュに乗っていても
それなりにかかるのは見えたかと思います。

尚、ローカル変数であれば、その領域はスタック上に取得されるため、
比較的キャッシュに乗りやすいところであると考えていますが、
allocによる取得の場合は少なくともスタック上とは別のエリア
ですので、キャッシュに乗らない可能性があります。
その場合はまぁメモリ応答時間もふまえて計算してみては
如何でしょうか？

尚、キャッシュの応答時間はCPUによって異なるかと思いますので
ご自身でも試されてみるといいかと思います。
＃intelだと、キャッシュは若干速かったような気もします。

7o8 · Answer

> //--- ～ ---//の計算時間 
> = 計算時間　+ メモリアクセス時間 + 分岐処理時間
> 
> となると思いますが、分岐処理時間はNUM_ITERを大きくすれば
> 無視できると思います。あとは計算時間とメモリアクセス時間を
> 分離したいということです（それぞれの時間を概算でいいので出したい）

「 =(計算時間　+ メモリアクセス時間 + 分岐処理時間)×NUM_ITER」でしょうから
分岐処理時間は特に小さくなったりしませんよ。
分岐処理＝カウンタアップ＋条件付きジャンプですので、カウンタが
メモリから取得なのかレジスタから取得かで大幅に実行時間が異なります。

レジスタ、キャッシュメモリ、メインメモリに対するウェイトはそれぞれ
0,10～30,100クロック以上（何となく、感覚的に）ですが、全てローカル変数と
して扱うのであれば キャッシュメモリへのアクセスとして考えればいいのでは
ないでしょうか？

計算の定義をint数値同士の足し算をいうのであれば 演算はパイプライン効果により
（理想的とはなりますが）１クロックと定義できるのではないでしょうか？
メモリアクセスの定義を２つの計算要素の取得及び結果の格納で3回と定義するなら
全てキャッシュへのアクセスであると期待しても100クロック程度かと思います。
で、分岐処理は３０＋１クロック（適当に３０とします）と考えます。
非常に大まかで少々適当な感じもしますが、私なら１：１００：３０の実行時間割合
と考え、実行に要した時間から上記比率で時間を割り出してみます。

ricardo_ · Answer

組み込みマイコンレベルでの話をします。
　空いているポートにＨやＬを書き込む命令を追加し、オシロスコープで波形観測をすれば計測できます。
　ルネサスのＨ８マイコンは、システム・クロックでカウントする１６ビットのカウンタが有ります。
　これを読めば経過時間が分かります。１６ビットではオーバーフローするならば、システムクロックを分周したクロックで動作する内部カウンタを使うなどすれば、オシロスコープによらずカウンタ値の読み込みで計測出来ます。

tadys · Answer

単純な方法は無いと思います。
今のパソコンのメモリは１次キャッシュ、２次キャッシュ、メインメモリ、仮想記憶のような階層構造になっています。
１次キャッシュは大抵はCPUに内蔵されていて高速ですが容量は少ないです。
２次キャッシュ、メインメモリ、仮想記憶の順に低速で大容量になります。
人間にたとえると１次キャッシュは頭の中の記憶、２次キャッシュは机の上のメモ、メインメモリは本棚の書類、仮想記憶は図書館の本のようなものです。

小さいプログラム、小さいデータでは全てがキャッシュに収まるのでメインメモリへのアクセスがなくなるので高速で動作しますが
プログラムやデータサイズが大きくなるとキャッシュの内容をメインメモリと入れ替える必要があり動作が遅くなります。
さらに大きくなると仮想記憶との入れ替えが必要になり動作が極めて遅くなります。
プログラムやデータのサイズが徐々に大きくなるとある値を超えた時に急激に遅くなることがあるのです。
このある値というのは環境で変わりますのでどういう環境で測定するかを指定しないと意味がありません。
同一のパソコンでメインメモリのスピードの違うもので実際のプログラムで比較をすればメモリアクセスの影響を見ることは出来るでしょう。

なお最近の高性能のCPUではアセンブラの記述だけでは動作を予測することは出来ません。
参考URLを見てください。

参考URL：http://d.hatena.ne.jp/hyoshiok/20070916#p1

7o8 · Answer

試してみて申し訳ないのですが、私的には浮動小数点の計算って結構
重いのではないか？と思います。
目的のプログラムとはそれてしまうと思いますが、a[],b[],c[]を
int型に変更し、実行時間を比較されてはどうでしょうか？

尚、レジスタの話題が出ていますが、レジスタは決まった、数少ない
int型の変数のようなもので、配列みたいに要素を設定し使用することは
できません。
＃（レジスタ＋要素）でメモリアクセスを行うことは普通にあります。（CPUによるかもしれませんが）

a[],b[],c[]が扱う数値について、小数点を含む実数であっても
たとえば小数点第2位までしか使用しない、って決まっているのであれば
計算中は全て100倍し、最後の最後で浮動小数点にすると（私の感覚では）
劇的に速くなるかと思います。
もちろん、オーバーフローしないのが大前提ですが。

SilverThaw · Answer

開発環境による依存度が違うので厳密な測定ができるかは疑問だけど、
registerの指定子を使用するか、
インラインアセンブラでダイレクトにレジスタ制御処理を記載するとか。

尚、
>例えば、以下のようなコードの
>計算に対してメモリアクセスがほとんどを占めるため、計算時間はほぼ0であると考えることで
さて、どうでしょう？
ダイレクトにメモリ間の計算をしているのでしょうか？
一度該当メモリの内容をレジスタに投入してレジスタで計算したりはしていないでしょうか？
これは、環境依存が大きすぎでどちらとも言えませんよ。

メモリアクセス時間の計測方法

> ５×12=60clk

そーいえば、おもしろいツールを思い出しました。

> //--- ～ ---//の計算時間

組み込みマイコンレベルでの話をします。

単純な方法は無いと思います。

試してみて申し訳ないのですが、私的には浮動小数点の計算って結構

開発環境による依存度が違うので厳密な測定ができるかは疑問だけど、

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　組み込みマイコンレベルでの話をします。