CCJ Home Page

CCJ提案書(ドラフト)        very primitive draft V0.852  

                  1997.10.8 initial version   市原 卓      

                  1997.10.24 lastly updated   市原 卓、渡邊 康

概要

 理化学研究所はBNLと現在建設中の相対論的重イオン衝突装置(RHIC 、1999年完成予定)を用いて「スピン物理」プロジェクトを1995年から始めており、1999年より実験が開始される予定である。「スピン物理」実験で使用するPHENIX検出器では毎秒 20MBのデータが生成される。 BNLには、RHICで行われる全ての実験のオンラインおよびオフラインのデータ処理のために RHIC Compuring Facility (RCF)の開発及び設置準備が行われている。 RCF ではオンライン/オフラインでのData Summary Tape (DST) の作成、Data Mining 及び Physics Analysis等が行われる予定である。

 また、「スピン物理」プロジェクトを推進するために、「理研BNL研究センター」が1997年にBNL内に設置された。「スピン物理」プロジェクトの研究活動の一環として、日本にPHENIXの実験のデータのオフライン処理ができるような地域データ処理センター(以下CCJ(仮称)と呼ぶ)を設置し、そこをアジア地区のPHENIX実験のデータ解析の拠点とし、「スピン物理」プロジェクトを遂行する。

現在検討中の項目

・現在のところ、CCJのハードウェア構成、ソフトウェア構成はBNLで開発中の RCFのDead Copyを想定してるが、それがBest なのか? RCFのDead Copy 以外の可能性はないのか?

・BNL RCF開発に積極的に参加していきたいが、RCFのどの部分に参加していくのか?  できればsub systemを責任を担って担当するのが望ましいが、どのような可能性かあるか? またどのくらいの人員体制でRCF開発に参加していくか? 早急(年内)に決断が必要。

・上記にも関連して、開発中および完成後において、それぞれどの程度の人員が必要なのか?

・DSTの全体(年間175 TB)のコピーを日本にもってきて、μDST Productionを行なうのか、DSTの一部を持ってきて、一部のμDST Productionを日本で行うのか、あるいはDSTはもってこずに、μDSTのみをもってくるのか? 本当に日本でμDST Productionを行う必要があるのか?

・PHENIXに関するSimulationは、日本で全面的に行うと期待されているが、それはスーパーコンピュータ(平成10年度後期に理研に導入予定)で行うのか、あるいはCCJで準備する専用の計算機で行うのか?

・PHNIX-SPIN-J と PHENIX-HI-Jでどのように協力、責任分担をおこなってCCJを構築していくのか?

・来年度BNLに設置される理研BNLセンターの実験グループの研究内容とCCJをどのように位置づけるのか。

CCJ構築の戦略

・ 現在の理研を中心としたスピングループが、PHENIXの実験のデータ解析を遅延なく円滑に、そしてデータ解析時の計算機環境として他のグループに対して十分に優位を保てる環境を構築する。また日本のPHENIX実験グループのデータ解析の日本でのセンター的な側面も持つよう意図する。

・ 余裕があればPHENIXプロジェクトのアジア地区の地域解析センターとしての役割も担う。

・ BNLには RHIC Computing Facility (RCF)が設置されData Summary Tape (DST)の作成はBNLで行う。

 

1)  CCJの業務内容

 CCJの業務内容は主に以下の3項目である。

1) 実験データ解析 (μDST Production, Physics Analysis等)  

2) PHENIX検出器シミュレーション

3) 理論モデル計算(特にLepton Event)

 1)に関してはData Summary Tape (DST)(場合によりその一部)のコピーを日本に輸送し、それに対して関心のある物理条件でフィルターをかけ、そのサブセットであるμ-DSTをつくるData Mining作業と、そのμ-DSTから物理を引き出すPhysics analysysの2つの大きな作業がある。また、そららの作業に必要な各種パラメータを決めるまでの、interactiveな作業も重要である。(μ-DSTをつくるData Mining作業のうちの、どの程度の部分をCCJで行うかは、現在検討中である。)

 2)は検出器のアクセプタンスと効率の計算及びバックグランドの評価のための巨大なシミュレーションデータの作成と再構築のための一連の作業である。

 3)はPHENIXのデータと比較するための巨大な数の理論モデル計算、その中でも特に、現在行われているハドロンのモデル計算にとは別に、レプトンの event generation に大きな関心がよせられている。このレプトンのモデル計算に関して、稀にしか発生しないレプトン事象のシミュレーションを正確に行うためには、莫大なCPU能力が必要とされる。

2), 3) のシミュレーション及び理論モデル計算に関しては、平成10年度末(1999年1月)に導入予定のスーパーコンピュータを利用する可能性も別途検討中である。

2) 本システムに要求される性能/仕様

2.1 本システムに要求される年間あたりのTape Storage容量

以下に示すの表の最初の列はRCF(97)に記載されているPHENIX全体に必要な年間あたりのTape Storage容量で、その右の3つの列はそれから算定した本システムに必要な年間あたりのTape Storage容量を示している。CCJに対して3種類あるのは、全てのDSTを日本にもってきた場合と、1/3のDSTを日本にもってきた場合、DSTをもってこない場合の3種類の評価である。

  PHENIX All CCJ Full DST CCJ 1/3 DST CCJ No DST CCJ NO dst & No sim
Raw Data 230 TB 0 0 0 0
Cal. Data 120 TB 0 0 0 0
Models          
Sim. Data 150 TB 150 TB 150 TB 150 TB 0
DST 175 TB 175 TB 60 TB 0 0
μ-DST 25 TB 25 TB 10 TB 10 TB 10TB
Data Base 3 TB 3 TB 3 TB 3 TB 3 TB
           
Total 703TB 353 TB 223 TB 163 TB 13 TB
テープコスト 176 88 56 41 3

(*)CCJのTape Storage容量の割り当て量の算定基準 : full DSTをもってくる場合はPHENIX全体のTape Storage容量から Raw Data 分を差し引いたもの。1/3 DSTをもってくる場合は、μ-dstの容量以外は上記の1/3として求めた。

 

2.2 本システムに要求される 磁気ディスク容量

Non-raid disk 

 Non-raid diskは安価ではあるが信頼性に乏しい(5モ disk のMTBFは 500,000時間程度)ので、Tape等のメディア上にあるデータのキャッシュ用や一時作業用に主に用いる。1年間分のμ-dstはNon-raid disk上に常時存在できるのが望ましい。

   μ-dstのcache用 年間のμ-dstのサイズ程度   10TB

   μ-dst時のバーファー用              2TB

   ─────────────────────────────

    合計 12 TB

システム完成後、このNon-raid diskは暫時必要に応じて増強される。

Raid disk

Raid diskは信頼性の必要なファイルの保管に用い、とくにソフトウェアの開発や日常の作業環境用に使用する。1人5GB として 50人と仮定すると 250GB程度は必要である。

    Program開発用、Daily Work用        256GB 

     

2.3 本システムに要求される CPU 能力

以下に示すの表の最初の列はRCF(97)に記載されているPHENIX全体に必要なCPU能力で、その右列は本システムに必要な年間あたりのCPU能力を示している。ここではCCJに必要なCPU能力は、データ解析に関してはPHENIX全体の1/2, シミュレーションに関してはPHENIX全体で必要な量の100% を仮定している。

PHENIX Total PHENIX CCJ
Event Reconstruction 4,375 0
Physics (DatA) 2,000 1,000
Models
Sim + Reconstraction 1,875 1,875
Physics (Sim) 250 250
Total (specint 95) 8,500 3,125

(*)RCF(97)によると、シミュレーションの100%が日本で行われることが想定されている。

このCCJの要求されるCPU Power 3.125k SpecInt95 を 複数のプロセッサーエレメント(PE)で構成した場合: Pentium II 300Mhz ならば 270台程度で構成できる。

   参考: 97年10月現在の代表的なCPUの性能

Specint95 Specfp95
Alpha (ev 5) 600MHz 18.4 21.3
Ultra Sparc 300 MHz 12.1 15.5
Pentium II 300 MHz 11.6 8.2
R10000 195 MHZ 9.3 17
Pentium Pro 200 MHz 8.6 6.5

2.4 本システムに必要な IO 能力

A) DSTをもってくる場合

 1) Data Summary Tape(DST)の読み出し速度 : 以下の要求条件で評価する。

 要求条件:DST全体をアクセスするのが、30日でできる速度を有する。

  case 1. Full DST(175 TB)をもって来る場合

     70 MB/s の テープ読み出し速度が要求される

 

  case 2. 1/3 DST(60TB)のみをもって来る場合

     25 MB/s の テープ読み出し速度が要求される 

 

 2) DISKの読み出し速度

 要求条件:ディスク上にあるμ-DST全体(10TB)のアクセスが1日で1周できる。  そのためには115MB/sec のディスク読み出し速度が要求される。

 データ解析はData mining(μ-DST production)とData Analysis (μ-data analysis)を同時に行うと仮定する。それらのデータはネットワークを通じてProcessor Element(PE)にfeedされる。 そのときに必要な転送速度の評価は以下の通り。

 3) Processor Element (PE) へのデータ転送速度

DST の読み出しとDisk の読み出しの合計として約180MB/sのPEへのデータ転送能力が必要とされる。

  PEの数が256台ならば、PE1台あたり平均で 連続0.7MB/s のデータのfeed が必要。PEが100Mbps Etherで接続しているならば、Ethernet の帯域専有率はPE1台で平均で7%程度となる。

3) 人的資源の評価

 BNL RCFでは1999年時点で34名の人がRCFの開発に携わる予定である。それらの開発されたソフトウェア資産を有効に生かすために、基本的には日本に設置されるCCJ はBNLに設置されるRCFの縮小版のデッドコピーが実現性が高いと考えられる。 

 RCFのシステムは大人数で開発が進行中のシステムであり、データの構造、データストーリッジの構造等が複雑で、またいろいろな階層で多くのソフトウェアーがからみ合っている非常に複雑なシステムである。おそらく運用が開始される2000年においても、多くの部分が開発途中で、ドキュメントもエンドユーザ向けしか整備されていないと思われる。このような複雑なシステムの縮小版のデッドコピーを日本に作った場合、Hardwareの設置は比較的容易だと思われるが、ソフトウェアの移植と、それを使用して計算機を運用するには、システム(おもにソフト)に熟知している必要があると思われる。そのため、比較的はやい段階でRCFの開発に参加し、RCFのシステム(おもにソフト)の構造を習熟する必要があると思われる。

  開発段階では概ね4名程度が必要で、各々の仕事の割り振りは以下のように考えられる。

o CCJの設計、年次研究計画、仕様書作成 (及び以下の1項目を行う) (1名)             

o Data Storageの階層構造(HPSS/HSM)関連の開発をRCFで携わる  1名          

o PCとサーバの接続方法、データの分配、並列処理、収集等の開発  1名  

o STAF, ROOT, Objectivity等底辺のソフトフトウェア環境の開発と構築  1名        

o Simulation/Data解析/Library等のエンドユーザ用ソフトウエアーの整備  1名     

 運用段階では、以上に加 えて、Tapeのハンドリング 1名、プロダクションのバッチジョブの実行に2名程度のアルバイト(Docter/Postdoc の兼任可能)および、ユーザ登録、障害対応に訓練された運用支援者(依託)が1名程度必要だと思われる。

人の配置案

           DSTを運搬  DST運搬なし

   (開発段階)

研究者        2名     2名    

ソフトに強い若手   2名     2名

ハードに強い若手   1名     1名  

    (運用段階)

研究者        2名     2名

ソフトに強い若手   2名     2名

ハードに強い若手   1名     1名  

運用支援者(依託)  1名     1名

アルバイト      4名      3名

4) システムの概算見積もり

  

 省略

5)  年次計画(ドラフト)

目標として、2000年度中に、全システムを完成し、それ以降はその運用と必要なシステムの増強を行う。

平成9年度後期

1. 本システムの提案書、仕様書をつめ、本システムのストラテジーについて内外でレビューを行い、本システムの概念設計を確認する。

2. 本システムの構築のために新たに開発を必要とするソフトウェア及びハードウェアの仕様についてまとめる。RCFとの協力関係を樹立する。

3. RCFのソフトウェア環境を理研に構築する。

4. 次年度の開発研究の内容をつめ、RCFと調整する。

5. Gbit Ethernet等の新しい技術について情報収集する。

平成10年度(1998年度)

開発研究内容

1. PCとサーバの接続方法、データの分配、並列処理、収集、スケジュラーに携わる  1名

  

  (1つの案) 20台のFast Ethernet Interfaceを実装した小形データサーバと20台のPE間を1対1の対向の接続を行い、データ転送の、転送速度、IOのあたりの遅延時間  (latancy)、 IOの多重度によるパフォーマンスの変化等の評価、データサイズの最適化、IOに対するデータサーバのCPUの負荷の評価、その逆の評価、等行い、これらの評価により次年度(1999年度)に導入するデータサーバの仕様、PE の要求性能や必要メモリー等などの詳細仕様をつめる。またFast Ethenetの代わりにGiga-bit Etnetnet Interfaceをデータサーバに実装し評価する。 また、データサーバとPE間のデータ転送や,そのほか並列分散処理に必要なソフトウエアのモジュールの仕様をまとめ、その開発とテストを行う。さらにサーバーのIOの負荷について評価する。

2. Data Storageの階層構造(HPSS/HSM)関連の開発にRCFで携わる         3. STAF, ROOT, Objectivity等底辺のソフトソフトウェア環境の開発と構築を行う 4. Simulation/Data 解析のソフトウエアーの整備を行う            5. Data Storageの階層構造(HPSS/HSM)関連の開発にRCFで携わる             

導入システム案

   小形データサーバ(20 fastether)      

   PE 20ユニット        

   磁気ディスク 200GB

   Giga-bit Ethenet Interface + LAN Swioth  

平成11年度(1999 年度)

開発研究内容

1. 実機の1/2のシステムをいれ、本格システムの試運転の環境を構築する。そしてPCとサーバの接続方法、データの分配、並列処理、収集、スケジュラー等の実装方法を開発する

2. Data Storageの階層構造(HPSS/HSM)関連の開発にRCFで継続し、       さらに現時点でのSoftwareをCCJの1/2実機に移植し動作試験を行う。

3. STAF, ROOT, Objectivity等底辺のソフトソフトウェア環境の開発と構築を継続し、さらに現時点でのSoftwareをCCJの1/2実機に移植し動作試験を行う。

4. Simulation/Data 解析のソフトウエアーの整備を行い実際に Simulationが行なえる環境をつくり、それを最大構成で実行する。

導入システム

    システム実機の1/2を導入する 

平成12年度(2000 年度)

1. 実機の残りの1/2のシステムをいれ、本格システムの運転開始をおこなう。そしてこれまで開発されたPCとサーバの接続方法、データの分配、並列処理、収集、スケジュラー等の実装方法CCJの実機に完全に移植する 

2. Data Storageの階層構造(HPSS/HSM)関連の開発にRCFで継続しさらにCCJの実機に完全に移植する。

3. STAF, ROOT, Objectivity等底辺のソフトソフトウェア環境の開発と構築を継続しさらにCCJの実機に完全に移植する。

4. Simulation/Data 解析のソフトウエアーの整備を行い、実際に Simulationが行なえる環境をつくり、それを最大構成で実行する。

システム実機の残りの1/2を導入してBase-line Systemを完成する  

平成13年度(2001 年度)以降 年間維持費

  省略 

付録

Appendix 1) 具体的なシステム構成案  概要 (Plan-1)

構成案1a, 構成案1b, 構成案2

  現在のところ、CCJのハードウェア構成、ソフトウェア構成はBNLで開発中の RCFのDead Copyを想定してるが、次ページの図1aに具体的なシステム構成案の例を示す。これはfull DSTを持ってくる場合を想定した場合である。 この例では、本システムは、300TB収容可能なテープアーカイブ装置(テープ搬送ロボッむ)、11.25M/sBの読み取り速度を持つテープドライブ(Redwood)6台、磁気ディスク12TB、高性能マイクロプロセッサー及びメモリー等から構成されるProcessor Element(PE)が256台、テープドライブ、磁気ディスク等からデータを読んで、PEにデータを供給するデータサーバ1台、データサーバ装置とPE間を接続するネットワーク接続装置1式等から構成される。1998年に製品が出荷されるGiga-Bit Ethenet InterfaceとLan Switch(4 Gbps throughput)を用いたその応用例を図1bに示す。

 データサーバにはテープドライブ6台、磁気ディスクが12TBが接続されている。またデータサーバには100Mbps EthenetのLAN Interfaceが32台接続されており、各LAN InterfaceにはHubが接続され、1つのHUBに8台のProcessoe Element (PE)、合計で256台のPEが100Mbps Ethernetで接続されている。

 想定されるシステム最大のIOの実行時には、6台のテープドライブから合計67MB/s, 磁気ディスクから合計115MBのデータの入力がデータサーバにあり、(合計180MB/s)、それを Fast Ethernet 32本に分割して出力するので、 このときはデータサーバに接続されているFast Ethernet 1本あたり5.6 MB/s(Fast Ethernetの全帯域幅の50%の利用率)のデータ量なので、このときEthernetの帯域は適切で必要かつ十分な余裕がある。

 データサーバはシステム最大のIO実行時には入出力あわせて360MB/s(およびPEからの出力結果としてその10%程度を合計して総計400MB/s程度)のIOが要求されるので、 IOの帯域幅はこの最大IO の値400MB/sにくらべ十分に大きく, ゆとりがなければなければならない。最大 I/O バンド幅は1GB/s以上が望ましい。 一例として、DEC のAlpha Server 8200は、132個のPCIスロット、ピークのシステムバスのバンド幅が2.1GB/s, 最大 I/O バンド幅 1.2GB/s と、3倍程度のIOの余裕があるので、このクラスのサーバをデータサーバとして使用すれば、 データサーバのIOの性能の要求は十分に満たされると思われる。(最終的には要確認)

 

 本システムの最大の特徴は、何かの都合でPE周りのソフトあるいはハード等の開発準備が遅れている、あるいは予想外の障害等が発生してPEが使用できない状況の時に、PEを使用せずにデータサーバ内蔵のSMPのCPU(Alpha Server 8400ならば最大14個内蔵可能=257 Specint95)をデータ解析に使用すると、全体のCPU性能はPEを最大限使用した場合の1/10程度ではあるが、データサーバ導入当初から確実に動作することであり、これはプロジェクト全体における本システムの役割を考えると重要な保険となると考えられる。

3.1主要構成要素の暫定仕様は以下のとおり

 [テープアーカイバー装置 暫定仕様]

   テープはBNL RCFのシステムと互換なものとする。

   総容量 300TB     (StorageTek社 4410)

テープドライブ 6台     (11.25MB/s StoregaTek社 Redwood)

[データサーバ装置 暫定仕様]

   SMP構成のUNIXサーバマシンであること。テープ及びdiskから連続して 合計 180MB/sのデータを読み取り、それを32台のFast Ehtenet Interfaceに連続して出力できるだけのシステム全体のIO能力を有すること。

    最大 I/O バンド幅    1GB/s 以上

    ピークシステムバスバンド幅  2GB/s 以上

    PCI Slot    100 以上

    Fast Ethernet card    36 port実装

    Fast(Ultra) Wide SCSI    40 port実装

    Memory         TBD (probably a few GB or more)

    CPU実装可能数        12

    CPU性能、数         TBD  

    Locaql disk TBD

    Software Fortran, C, C++, HSS

    数量             1式 

[Processor Element (PE) 暫定仕様]

   CPU Pentiiun II 300 Mhz 相当以上

    Memory TBD (128-256 MB/CPU)

   Network interface Fast Ethernet

   Local disk TBD

   OS             Solaris/Linux/NT TBD 

   boadあたりのCPU台数   TBD (probably 1, but could be 4) 

   数量           256 CPU台数相当程度

参考リンク集

 

  CCJ home page

  CCJ 関連リンク集