# リングネットワークにおける λ コンピューティング環境に適した 共有メモリアーキテクチャの設計と評価

久保 貴司 计 谷口 英二 馬場 健一 甘 村田 正幸

† 大阪大学大学院情報科学研究科 〒 565-0871 吹田市山田丘 1-5
 †† (株)日本ビジネスデータープロセッシングセンター 兵庫県姫路市
 ††† 大阪大学サイバーメディアセンター 〒 567-0047 茨木市美穂ヶ丘 5-1
 E-mail: †{t-kubo,murata}@ist.osaka-u.ac.jp, †††baba@cmc.osaka-u.ac.jp

あらまし 我々は,各ノード計算機間に光ファイバを直結して各ノード計算機上に存在する共有メモリを波長パスで 結ぶことにより,高速計算を可能とする  $\lambda$  コンピューティング環境を提案している.本稿では, $\lambda$  コンピューティング 環境において波長数やハードウェアの制約を考慮した実現可能なリングネットワークにおける共有メモリアーキテク チャを提案し,その性能を評価する.具体的には,リングネットワークにおいて複数波長を用いてデータ転送やキャッ シュー貫性制御を行う方式の設計を行い,制御にかかる遅延時間を求め,セミ・マルコフ過程を用いて解析を行った. その結果,共有メモリアクセス頻度が大きい場合など性能向上が得られるパラメータ領域が存在することを明らかに した.

キーワード λコンピューティング環境,共有メモリアーキテクチャ,キャッシュー貫性制御,セミ・マルコフ過程

# Design and Evaluation of a Shared Memory Architecture for $\lambda$ Computing Environment in Ring Networks

Takashi KUBO<sup>†</sup>, Eiji TANIGUCHI<sup>††</sup>, Ken-ichi BABA<sup>†††</sup>, and Masayuki MURATA<sup>†</sup>

† Graduate School of Information Science and Technology, Osaka University

1-5 Yamadaoka, Suita, Osaka 565-0871, Japan

†† Nihon Business Data Processing Center Co.,Ltd

††† Cybermedia Center, Osaka University 5-1 Mihogaoka, Ibaraki, Osaka 567-0047, Japan

E-mail: †{t-kubo,murata}@ist.osaka-u.ac.jp, †††baba@cmc.osaka-u.ac.jp

Abstract We proposed the  $\lambda$  computing environment, in which computing nodes with shared memories are connected by optical fibers, and their shared memories are also connected by wavelength paths directory, so that we can make a distributed computing. In this report, we model and analyze the shared memory architecture in the ring network considering the restriction of the number of wavelength and hardware in  $\lambda$  computing environment. Actually we design the control method for cache coherency by using multiple wavelength on the ring network, and calculate the control delay time. Then we analyze the model with semi-Markov process and evaluate the shared memory architecture. As a result, we showed that the performance improvement was achieved when the shared memory access frequency was large.

Key words  $\lambda$  computing environment, Shared memory architecture, Cache coherency, Semi-Markov process

1. まえがき

一台の計算機では実行できないような大規模計算を複数の 計算機資源を利用して実行するグリッドコンピューティング技 術に関する研究開発がさかんに進められている.グリッドコン ピューティング環境では一般に現在のインターネットで用いら れている TCP/IP を計算機間でのデータ交換に利用するが, TCP ではパケット処理などの通信に要するオーバヘッドが大きいた め十分な性能を得るのは難しいと考えられる.そこで,ネット ワーク上のノードや計算機群を光ファイバで接続し,エンドホ スト間に光波長パスを設定することにより高速かつ高品質な通 信パイプを提供することを考える.その上で,この波長パスを 専用の通信チャネルとして利用し,分散計算を行う新たなアー キテクチャとして λ コンピューティング環境を提案している.

関連研究[1]~[3]では,  $\lambda$  コンピューティング環境を実現す るひとつの手法として,NTT フォトニクス研究所が開発した 情報共有システム(AWG-STAR システム)[4]を利用している. AWG-STAR システムでは,各ノード計算機が共有メモリボー ドを有し,共有メモリボード間を AWG ルータを介して波長パ スで接続した上で共有すべきデータを転送し,すべてのノー ド計算機間で同一のデータを共有する.これらの研究では, AWG-STAR システムを用いた  $\lambda$  コンピューティング環境にお いて,MPI や OpenMP の設計と実装を行い,アプリケーション を用いてその性能を評価している.しかしながら,AWG-STAR システムによる共有メモリアーキテクチャにおいては,並列計 算アプリケーションの実行時間に基づいて評価を行っているた め,ネットワーク特性やキャッシュプロトコルの違いによる性 能への影響などについては十分な評価ができていない.

λコンピューティング環境における共有メモリでは、ノード 計算機が広域に配置されているため、マルチプロセッサシステ ムやクラスタにおける分散共有メモリなどに比べ、ネットワー ク特性が共有メモリシステムを用いた計算環境の性能に大きな 影響を与えるものと考えられる.このため、λコンピューティ ング環境に適した共有メモリアーキテクチャを設計するには、 ネットワークが共有メモリの性能に与える影響を十分考慮しな ければならない.また、現在の計算機アーキテクチャでは CPU の計算性能にプロセッサのキャッシュメモリが大きな影響を与 える.このキャッシュメモリの制御方式と共有メモリシステム の相互作用についても検討する必要がある.

そこで,本稿では,λコンピューティング環境における共有 メモリアーキテクチャのモデル化を行い,ネットワークやキャッ シュー貫性制御のための処理がシステムの性能にどのような影 響を与えるかを解明する.まず,ネットワークモデルとしてリ ングネットワークを対象とし,波長数やハードウェアの制約を 考慮する.モデル化には状態の滞在時間が任意に設定できるセ ミ・マルコフ過程[5]を利用する.さらに定常状態確率から性 能解析を行うことにより,どの共有メモリアーキテクチャの構 成がλコンピューティング環境に適しているかについて検討し ていく.

## λ コンピューティング環境における共有メモ リアーキテクチャ

#### 2.1 λコンピューティング環境

入コンピューティング環境においては,WDM技術を利用して各ノード計算機,光スイッチを光ファイバで接続し,ノード計算機間に波長パスを設定する.このノード計算機間に設定した波長パスを利用して分散並列計算を行う.あらかじめ設定した波長パスを専用の通信チャンネルとして利用することにより,分散並列計算のデータ交換において,高速かつ高信頼な通信が実現できる.

### 2.2 共有メモリアーキテクチャの特性要因

λ コンピューティング環境における共有メモリアーキテク

チャはネットワークトポロジやメモリアクセスモデル,キャッ シュプロトコルなどにより性能を大きく左右される可能性があ り,どのような共有メモリアーキテクチャが適しているのかは, 一概に決定することはできない.そこで,本節では共有メモリ アーキテクチャの特徴を決定づける要因であるトポロジ,メモ リアクセスモデル,キャッシュプロトコル,キャッシュと共有メ モリ間のデーター貫性プロトコルについて説明し,本稿におい て対象とする共有メモリアーキテクチャついて述べる.

#### a) トポロジ

トポロジとしてはリングトポロジとメッシュトポロジが考え られる.リングトポロジはブロードキャストが容易となるトポ ロジであるが,伝搬遅延として最低でもリング1周分を要する ことになる.一方,メッシュトポロジはリングトポロジに比べ ると伝搬遅延は短くなるが,ブロードキャストのために各ノー ドで送受信されるデータの複製が必要となる.

b) メモリアクセスモデル

メモリアクセスモデルとしては UMA (Uniform Memory Access) モデル, NUMA (Non-Uniform Memory Access) モデル, NORMA (NO Remote Memory Access) モデルの3つが考えられ る. UMA モデルはすべてのプロセッサがアドレス空間を共有 し,同一時間でアクセス可能なモデルまたはそのようなメモリ を持つ計算機である.NUMA モデルはすべてのプロセッサが, アドレス空間を共有するメモリを持つが,あるプロセッサから 見た時のアクセス速度は,メモリの番地によって異なるモデル またはそのようなメモリを持つ計算機である.NORMA モデル は各プロセッサは互いに独立したアドレス空間のメモリを持ち, メッセージのやりとりによって計算を進めていく,つまり共有 メモリをもたないモデルまたは計算機である.

c) キャッシュプロトコル

キャッシュプロトコルとしてはスヌープ法とディレクトリ法 が考えられる.スヌープ法はマルチプロセッサシステムで多 用されており,各キャッシュが共有メディアを監視し,データ や制御信号の発生などシステムの挙動を把握することにより, キャッシュー貫性保持プロトコルを実現している.ディレクト リ法は NUMA 型システムで使用されており,どのキャッシュが どのキャッシュラインを保持しているかという情報を各ノード のディレクトリに保持し,必要が生じた時にそれを検索するこ とにより直接相手のキャッシュの無効化などの処理を行う.

d) キャッシュと共有メモリ間のデーター貫性プロトコル

キャッシュと共有メモリ間のデーター貫性プロトコルは,一致 させるタイミング(ライトスルー,ライトバック)と方法(無 効化,更新)の組み合わせによって,無効化型ライトスルー, 無効化型ライトバック,更新型ライトスルー,更新型ライトバッ クの4種類が考えられる.

ここでは,本稿で用いる無効化型ライトバックの状態と状態 遷移を図1を示す.無効化型ライトバックには3つの状態があ り,それぞれキャッシュと共有メモリとの間でデータが一致し ている Clean 状態(以下,C状態),キャッシュと共有メモリ との間でデータが一致していない Dirty 状態(以下,D状態), キャッシュが無効化されている Invalid 状態(以下,I 状態)で



#### 図1 無効化型ライトバックの状態遷移図

#### 表1 共有メモリアーキテクチャの構成

| トポロジ    | メモリアクセスモデル | キャッシュプロトコル |
|---------|------------|------------|
| リングトポロジ | UMA モデル    | スヌープ法      |
| リングトポロジ | NUMA モデル   | スヌープ法      |

## ある.

2.3 対象とする共有メモリアーキテクチャ

共有メモリアーキテクチャにおいて特に重要な機構は各プロ セッサ間のキャッシュの一貫性と,キャッシュと共有メモリ間 のデータの一致である.また,並列計算アプリケーションの観 点ではプロセス間の同期も重要な点である.このようなデータ の一貫性や同期の際にはブロードキャストが多用される.そこ でまず,ブロードキャストが容易なリングトポロジを構成する 共有メモリアーキテクチャについての解析を行う.この場合, リングトポロジを構成しているため,制御トークン用の波長を 用意し,これを監視することにより従来のスヌープキャッシュ プロトコルを自然に拡張することができる.また,キャッシュ と共有メモリ間のデーター貫性プロトコルは無効化型ライト バックを採用する.これは,プロトコル処理の際にネットワー クに流れるデータ量が他に比べると少なく,プロトコルの処理 もシンプルであることに加え、ノード計算機間の遅延時間が大 きい場合に有効であると考えられる.リングトポロジを用いる 場合,ネットワークにデータを送信することにより全てのノー ドにデータを伝えることができる.そのため,メモリアクセス モデルとしては UMA モデル(図2)と NUMA モデルが考え られる. UMA モデルと NUMA モデルではネットワーク利用 率が異なるため共有メモリアーキテクチャの性能が異なる可能 性があり,両方のモデルについて解析を行い,性能を評価する (表1).

これらのアーキテクチャは,リングトポロジであるために, 伝搬遅延として最低でもリング1周分の時間を要する.そのた め遅延時間による影響を抑えるために複数波長を用い,ノード での処理遅延時間を削減する方法についても検討し,性能評価 を行う.具体的には波長数が1の単一波長リングトポロジ,波 長数が2の複数波長のリングトポロジについて性能を評価する.

3. 複数波長を用いた光リングネットワークの構成

本稿では,対象とするリングネットワークを単一方向リング とする.前節で述べたように,リングトポロジを採っているた



図 2 Ring-UMA モデル

めに,全てのノードを経由することにより多くの処理遅延を要 する.そこで,複数波長を用いてノード間に波長パスを設定し, ノードの処理遅延を減らすことにより処理遅延を抑える方法を 提案する.複数波長を用いたネットワーク構成としては階層化 したリング構造を有する Hierachical ring [6],[7] を採用する.こ のネットワークはノード数によらず少ない任意の波長数で実現 することができ,また,ノードからネットワークへの接続に必 要となる波長インターフェース数が少なく,ネットワークの構 築コストを抑えることができる.

3.1 光リングネットワーク構成と記号の定義

ここでは,簡単のためにリングトポロジを形成するノード 数  $N \ge 2^n$  とする.これらのノードをリング状に配置し,各 ノードに対して,ノード番号を0から順に反時計回りにつけ,  $a_0, a_1, \dots, a_{2^n-1}$  と表す.この状態のリングトポロジに,波長  $\lambda_2$ を分割数  $I = 2^i$ ,  $I = 2^{i+1}$  で全ノードを均等に分割できる ように設定する(図 3(a)).

複数の波長を利用できるノードを複数波長ノードと呼び, 複数波長ノードから半時計回りに次の複数波長ノード手前までの ノードを1セットとして扱い,  $S_k$  ( $k = 0, 1, \dots I - 1$ )と表す. ここで, 複数波長ノードを $a_{w_k}$ と定義する(図3(b)).すなわち, ノード数  $N = 2^n$ , 分割数  $I = 2^i$ とすると,  $a_{w_k}$ となるノード はノード番号が $a_0, a_{2^{n-i}}, a_{2\cdot 2^{n-i}}, a_{3\cdot 2^{n-i}}, \dots, a_{(i-1)\cdot 2^{n-i}}$ の ノードとなる.つまり  $w_k = k \cdot 2^{n-i}, 0 \le k \le i - 1$ と表すこ とができる.次に, ノード $a_{w_k}$ から反時計回りに隣のノード  $a_{w_{k+1}}$ の手前までを1セットとして区切る.このとき各セット に属するノード数は  $2^{n-i}$ となる(図3(b)).

ノード間の転送遅延時間を求めるため,送信ノードを $a_s$ とし,目的ノードを $a_d$  ( $0 \le s \le 2^n - 1, s \ne d$ )とする.各セットはそれぞれ対称であるので送信ノードが属するセットを $S_0$ に固定する.そのため,セット内のノード数は $2^{n-i}$ となり,すなわち $0 \le s \le 2^{n-i} - 1$ である.

遅延時間の要素には,データが光リングを伝わるのに要す る伝播遅延時間,ノードにおける処理遅延時間,波長変換に 要する遅延時間がある.そこで,(*a<sub>s</sub>*,*a<sub>d</sub>*)間における通信の遅 延時間は,各遅延時間に対する定数*T<sub>TD</sub>*,*T<sub>PD</sub>*,*T<sub>CD</sub>*と係数



(a) 2 波長のノード構成図

(b) セットへの分割

図3 ノードの構成図

 $F_{TD}(a_s, a_d), F_{PD}(a_s, a_d), F_{CD}(a_s, a_d)$  とした場合,式 (1) と 表すことができる.

$$T_{Delay}(a_s, a_d) = F_{TD}(a_s, a_d) \cdot T_{TD} + F_{PD}(a_s, a_d) \cdot T_{PD}$$
$$+ F_{CD}(a_s, a_d) \cdot T_{CD} \tag{1}$$

## 3.2 Point-to-Point による平均遅延時間

キャッシュの状態の回答や,キャッシュの書き戻しは Point-to-Point の通信を利用する. Point-to-Point 通信における平均遅延 時間は,式(1)を用いて,式(2)のように表すことができる.

$$T_{AveDelayPP} = \frac{1}{2^{n-i}} \sum_{s=0} \frac{\sum_{d=0} T_{Delay}(a_s, a_d)}{2^n}$$
(2)

式 (1) における各係数は使用する各波長のホップ数を計算す ることにより求めることができる.また,ある送信ノード $a_s$ からあるセット $S_k$ にある全てのノードへ通信する遅延時間を  $T_{Delay}(a_w, S_0)$ とすると,全てのノード間の通信における遅延 時間の総和は式 (3) となる.

$$T_{Delay} = \frac{1}{2^{n}} \Big( T_{Delay}(a_{w}, \mathcal{S}_{0}) + \sum_{k=1}^{2^{i}-1} T_{Delay}(a_{w}, \mathcal{S}_{k}) \\ + \sum_{s=1}^{2^{n-i}-1} (T_{Delay}(a_{s}, \mathcal{S}_{0}) + \sum_{k=1}^{2^{i}-1} T_{Delay}(a_{s}, \mathcal{S}_{k})) \Big) (3)$$

したがって, 平均遅延時間 T<sub>AveDelayPP</sub> は式 (4) となる.

$$T_{AveDelayPP} = \frac{T_{Delay}}{2^{n-i}} \tag{4}$$

## 3.3 ブロードキャストによる平均遅延時間

キャッシュ状態の問い合わせやキャッシュ一貫性制御はプロードキャストで行う.プロードキャストを行う場合,送信ノードは各 $S_k$ 宛てにメッセージを複製し,送信する必要がある.また,全てのノードに送信したメッセージが届いたことを確認する必要がある.そのため,送信した全てのメッセージが再び自ノードに帰ってくるのを待たなければならない.よって,プロードキャストに要する時間は最後の送信メッセージが戻ってくるまでの時間となる.送信ノードが複数波長ノードとそれ以外のノードで遅延時間が異なるためそれぞれについて求める.送信ノードが $a_{w_0}$ の場合には式(5),送信ノードが $a_{w_0}$ 以外の

表 2 モデルで用いるパラメータ

| キャッシュヒット率                | h |
|--------------------------|---|
| メインメモリアクセスの読み込み割合        | r |
| メインメモリアクセスの書き込み割合        | w |
| メインメモリアクセスの共有メモリへのアクセス割合 | s |

| 表3 モデルで用いる変数       |       |
|--------------------|-------|
| D 状態のキャッシュラインを持つ確率 | $P_D$ |
| あるノードだけが ⅅ 状態を持つ確率 | $P_d$ |
| C 状態のキャッシュラインを持つ確率 | $P_C$ |
| あるノードが $C$ 状態を持つ確率 | $P_c$ |
| キャッシュメモリの空きが全くない確率 | $P_x$ |
| キャッシュラインが無効化される確率  | Pinn  |

場合には式(6)となる.

 $T(\mathcal{S}_0) = (2^{n-i}) \cdot T_{\lambda_1} + (2^i - 1) \cdot T_{\lambda_2} + 2 \cdot T_{CD}$ (5)

$$T(S_0) = (2 \cdot 2^{n-i}) \cdot T_{\lambda_1} + (2^i - 2) \cdot T_{\lambda_2} + 4 \cdot T_{CD}$$
(6)

## 4. 共有メモリアーキテクチャのモデル化と評価

#### 4.1 セミ・マルコフ過程

本稿では,セミ・マルコフ過程[5]によって共有メモリアー キテクチャをモデル化する.セミ・マルコフ過程では,それぞ れの状態に任意の滞在時間を設定することができる.したがっ て,セミ・マルコフ過程を用いることにより,キャッシュ一貫 性制御などの複雑な要求が起こる共有メモリアーキテクチャの モデル化が容易になる.

確率過程を  $\{X(t), t \ge 0\}$  とし,有限状態を持っているとすると,定常状態確率を求める具体的なアルゴリズムは以下の通りである.

- (1) 離散時間型マルコフ連鎖のための定常状態確率を $\pi$ とし, 状態遷移行列 $p = (p_{i,j})$ を用いてこの定常状態確率を計算 する
- (2) セミ・マルコフ過程の全ての状態 {*i*} について, 平均滞在
  時間 η<sub>i</sub> を計算する.
- (3) CPU の各滞在時間を求めることにより, セミ・マルコフ過 程の定常状態確率を計算する.

$$P_i = \frac{\pi_i \eta_i}{\sum_j \pi_j \eta_j} \tag{7}$$

また,脱出確率 $\psi_i = P_i / \eta_i$ となる.

## 4.2 モデルで用いる変数の定義

モデルに用いるパラメータ,変数をそれぞれ表 2,表 3 に示す. 変数の値はそれぞれ  $P_D = hws$ ,  $P_d = (N - 1)hws(1 - hws)^{N-1}$ ,  $P_C = hrs$ ,  $P_c = 1 - (1 - hrs)^{N-1}$ ,  $P_x = (1 - P_{inv})^{N-1}$ ,  $P_{inv} = hP_cw + (1 - h)(1 - P_d)w$ となる. **4.3** 共有メモリのモデル化

入コンピューティング環境における共有メモリアーキテクチャをセミ・マルコフ過程を用いてモデル化する.各アーキテクチャの振る舞いにしたがって,各ノードの CPU の観点から状態遷



図4 2 波長を用いるリング UMA アーキテクチャの状態遷移図

移図を作成する.2 波長を用いるリング UMA アーキテクチャ における状態遷移図を図4に示す.リング NUMA アーキテク チャについても同様に表現できるが,紙面の都合上割愛する.

状態1を CPU における計算状態とし,メモリアクセスを必要としない計算処理を行うものとする.次に CPU がローカル メモリにアクセスする場合を考え,読み込みアクセス状態(4~ 18,35)と書き込みアクセス状態(22~31,36)に分ける.

また,自ノード以外のノードが,あるキャッシュラインにア クセスしている間,自ノードから同じ共有メモリに対するアク セスはブロックされる.この確率を  $P_B$  とする.CPU が共有 キャッシュにアクセスしている状態の集合を  $S_a$  とする.キャッ シュラインへのアクセスがブロックされるのは,状態集合  $S_a$  に おいて確率 s で起こる.各キャッシュラインへアクセスされる確 率を  $\alpha_1$  とすると, $\alpha_1 = \frac{l}{C} \sum_{s \in S_a} P_s$ ,  $P_B = 1 - (1 - \alpha_1)^{N-1}$ となる.

自ノード以外のノードから書き戻し要求メッセージが送られた場合, CPU は共有メモリに該当キャッシュを書き戻さなければならない.書き戻し要求の起こる確率を P<sub>q</sub> とする.書き戻し要求メッセージが送られるのは CPU が読み込み,または書き込みアクセスしているキャッシュの状態が P<sub>d</sub> であった場合である.

4.4 セミ・マルコフ過程による解析

4.4.1 解析方法

本節では,セミ・マルコフ過程による定常状態確率の求め方 を述べ,数値例により解析結果を示す.定常状態確率を次の手 法で求め,解析する.

- (1) 状態確率  $P = (P_{i,j})$  を初期化する
- (2) 離散時間型マルコフ連鎖で方程式 π = πP を解くことに よって,定常分布ベクトル π = {π<sub>i</sub>} を得る
- (3) 式 (7) により定常状態確率を求める
- (4) {*P<sub>i</sub>*}を用いて状態確率を更新する
- (5) 直前の {*P<sub>i</sub>*} の値と現在の {*P<sub>i</sub>*} の値の差が,設定した十

| 表 4 対象モデルにおけるパラメータの値                  |      |        |  |  |
|---------------------------------------|------|--------|--|--|
| CPU クロック                              | 2    | [GHz]  |  |  |
| CPU–L2 キャッシュのアクセス時間 $t_1$             | 0.01 | [µs]   |  |  |
| L2 キャッシュ–メインメモリのアクセス時間 t <sub>2</sub> | 1    | [µs]   |  |  |
| ネットワークインターフェイス処理時間 $t_3$              | 3    | [µs]   |  |  |
| 各ノードの共有メモリ容量 $M$                      | 1024 | [MB]   |  |  |
| L2 キャッシュ容量 C                          | 1024 | [KB]   |  |  |
| キャッシュラインのサイズ <i>l</i>                 | 4    | [KB]   |  |  |
| ネットワーク容量 B                            | 10   | [Gbps] |  |  |
| <b>キャッシュヒット</b> 率 h                   | 0.95 |        |  |  |
| 波長変換に要する時間 $T_{CD}$                   | 0    | [µs]   |  |  |



図 5 リング UMA アーキテクチャの定常状態確率 (L = 100km,  $N = 32, s = 10^{-3}$ )

#### 分小さな閾値より大きければ(2)に戻る

#### 4.4.2 数 值 例

共有メモリアーキテクチャの解析のために,表4のように パラメータを設定する.CPUの使用割合として,読み込みが 15%,書き込みが5%,その他の演算処理が80%とする.つま リr = 0.75,w = 0.25とする.また,ノード数N,ネットワー クのリング長L,共有メモリへのアクセス率sを設定し,これ らは独立したパラメータとする.

ここで,定常状態確率を求める.リング UMA アーキテク チャの定常状態確率を図5に示す.状態1は CPU の計算状態 であり,状態32は CPU のローカルメモリへのアクセス状態で ある.また,状態19,20,21は一貫性制御を行っている状態で あり,共有メモリへのアクセス頻度やデータ共有に要する遅延 時間に影響される.遅延時間が増加する場合,共有メモリアク セスの頻度が増加した場合,この状態確率は大きくなる.すな わち,遅延時間の多くはノードの処理遅延やデータの伝播遅延 である.これは,リング長やノード数が増大すると大幅に増加 する.逆に,リング長が短くノード数が少ない場合は,データ 共有における遅延時間が小さく,共有メモリへのアクセス頻度 によらず一貫性制御の状態確率が小さく,計算処理の状態確率 が大きくなる.

4.5 共有メモリアーキテクチャの性能評価

本節では,4.4節で行った数値解析の結果を用いて,計算ス







図 6 リング UMA アーキテクチャの計算スループット

ループットを求め,これを指標として共有メモリアーキテク チャの性能評価を行う.

計算スループットを以下のように定義する.また,計算スルー プットの単位は MIPS (Million Instructions Per Second) とする.

Throughput = 
$$\frac{N}{0.8\eta_1 + 0.2st_{share} + 0.2(1-s)t_{private}}$$
(8)

ここで *tprivate* はローカルメモリにアクセスする平均時間であ り,式 (9) で表す.

$$t_{private} = h \times t_1 + (1 - h) \times (t_1 + t_2) \tag{9}$$

図 6 にリング UMA アーキテクチャにおいて 1 波長および 2 波長を用いた場合の計算スループットを示す.図に示していな いが,リング UMA,リング NUMA アーキテクチャの計算ス ループットはほぼ同様の結果となっている.

リング長が短く,共有メモリへのアクセス頻度が低い場合に は2000MIPS 以上の計算スループットを計測することができて いる.しかし,リング長が長い場合,共有メモリへのアクセス 頻度が高い場合には著しい性能低下がおきている.これはデー タ共有における遅延時間が原因である.また,1波長と2波長 のアーキテクチャの性能差を比較すると,リング長が短い場合, 複数波長を用いるとノード数が増えるにしたがって計算スルー プットは向上しており,リング長1km,ノード数32の場合に は約15%向上している.しかし,計算スループットの数値とし ては1000MIPSにも達しておらず,共有メモリへのアクセス頻 度が高い並列計算では十分な性能は得られない.また,リング 長が長い場合や共有メモリアクセス頻度が低い場合には波長数 による性能差は生じていない.これはノードの処理遅延に比べ てデータの伝播遅延の割合が大きく,リングトポロジでは波長 数を増やしても長いリング長で性能のよい計算ループットを得 ることが難しいことを示している.

## 5. まとめ

本稿では,光リングネットワークを用いた λ コンピューティ ング環境に適したリングトポロジを用いた共有メモリアーキ テクチャの設計と評価を行った.設計したリングトポロジを用 いる共有メモリアーキテクチャをモデル化し,セミ・マルコフ 過程を用いて解析を行った結果,リング長が短く,共有メモリ へのアクセス頻度が低い場合には 2000MIPS 以上の計算スルー プットを計測することができた.また,2 波長を用いた場合, リング長が短く,共有メモリへのアクセス頻度が高い場合に性 能が向上することが明らかになった.しかしながら,共有メモ リへのアクセス頻度が高い並列計算では,リングトポロジを用 いる共有メモリアーキテクチャではデータの伝播遅延がボトル ネックとなり,複数波長を用いてさえ十分な計算スループット をを得ることが難しい.今後は伝播遅延が小さく抑えられる メッシュトポロジを用いた共有メモリアーキテクチャの性能の 評価を行い,報告する予定である.

#### 献

文

- M. Imoto, E. Taniguchi, K. Baba and M. Murata: "Implementation and evaluation of MPI library with globus toolkit for establishing λ computing environment", Proceedings of 6th Asia-Pacific Symposium on Information and Telecommunication Technologies, pp. 421– 426 (2005).
- [2] 井本 舞, 合田 圭吾, 馬場 健一, 村田 正幸: "λ コンピューティング 環境における OpenMP ライブラリのためのデータ共有機構の設 計", 電子情報通信学会技術報告 (PN2006-28), 106, 281, pp. 19–24 (2006).
- [3] 合田 圭吾, 井本 舞, 藤本 典幸, 馬場 健一, 村田正幸: "λ コンピュー ティング環境における OpenMP ライブラリの設計と実装", 電子 情報通信学会技術報告 (PN2006-40), **106**, 419, pp. 5–8 (2006).
- [4] A. Okada, H. Tanobe and M. Matsuoka: "Dynamically reconfigurable real-time information-sharing network system based on a cyclic-frequency AWG and tunable-wavelength lasers", Proceedings of ECOC 2003, Vol. 4, pp. 978–979 (2003).
- [5] O. R. Haverkort: "Performance of Computer Communication Systems", WILEY (1998).
- [6] A. K. Somani: "Survivability and Traffic Grooming in WDM Optical Networks", CAMBRIDGE (2005).
- [7] O. Gerstel, P. Lin and G. Sasaki: "Wavelength assignment in a WDM ring to minimize cost of embedded SONET rings", Proceedings of IEEE INFOCOM '98, pp. 94–101 (1998).