50PBにおよぶ膨大な実験データを確実に保存し、高速にアクセス
最終更新日:2025年11月19日
大学共同利用機関法人高エネルギー加速器研究機構(以下、KEK)は、大量の実験データの運用を、階層型ストレージシステムを活用して効率的に行っています。
そのキーテクノロジーとなっているのが、大容量の高速ディスク装置とテープ装置、それらを効率的に連携させる階層型ストレージ管理ソフトウェアHigh Performance Storage System(HPSS)です。KEKでは20年以上前から大規模実験用のデータ管理基盤としてHPSSを活用し、更新を重ねながら安定運用を続けています。
同システムの設計・運用を担当するKEK計算科学センター教授村上晃一氏に、アカデミック領域でのHPSS活用の有効性について伺いました。
1. 宇宙の謎に迫る加速器実験を取り仕切る
日本が世界に誇る学術研究機関
KEKは1971年に大学共同利用研究所第一号として誕生し、2021年に創立50周年を迎えた歴史ある研究所です。
電子や陽子などの粒子を光速近くまで加速する加速器を保有し、世界中の研究者に対して共同実験の場を提供しています。つくばキャンパスではSuperKEKB加速器を運用し、宇宙の謎の解明に挑むBelle II実験が実施されています。
また、東海キャンパスのJ-PARCセンターでは大強度陽子加速器施設を運用して、ニュートリノ振動を研究するT2K実験をはじめさまざまな研究が進められています。
同研究所の存在意義について村上氏は、「大規模な素粒子実験ができる大型加速器は世界に数台しかなく、Belle II実験には現在、世界23か国・地域の約700人の研究者が参加し、共同研究が行われています」と説明します。
2. HPSSの階層型ストレージで
50PBの大規模実験データを保存し、活用可能に
KEKの実験では、日々大量のデータが生成されます。大きな実験になると、1つの実験で数10PB(ペタバイト)のデータを管理する必要があり、現在全ての実験データを合わせると約50PBにのぼるとのこと。それらのデータをマネジメントするために、ストレージシステムにも独自の要件が求められます。村上氏はKEKでのデータ管理の難しさについて、「基本的に1つの実験が20年以上続き、その間のデータ損失は絶対に許されません。
他方でハードウェアも進化し、処理できるデータの量は増えていく一方です。その状況で、永続的なデータの保存に加え、解析を行うために研究者が大量のデータに高速にアクセスできるような効率性も求められます」と語ります。
そこでKEKでは、大容量ストレージを効率的に管理するため、20年以上前から分散共有ストレージ、ディスク、テープ媒体をそれぞれ活用した階層型ストレージ管理の仕組みを採用しています。
分散共有ストレージ基盤にはGPFS(General Parallel File System)、階層型ストレージ管理にはHPSSを採用し、将来を見据えつつ、ハードウェアの技術進化に合わせて構成をアップデートさせながらシステムを運用してきました。
GPFSはIBMが開発した分散ファイルシステムで、現在はIBM Storage Scaleとして提供されています。HPSSは、IBM、米国エネルギー省が共同で開発した階層型ストレージ管理ソフトウェアで、プライマリの高価なディスクストレージ媒体とセカンダリの安価なテープ媒体の間でデータを自動的に移動させることが可能になります。
「我々が必要とするような、スケーラブルでたくさんの計算ノードからアクセスして動くストレージの選択肢は、分散共有ストレージしかありません。その際に大量データを確実に保存するには、コスト面からもテープ媒体の活用が最適です。そしてテープも含めた大規模ストレージシステムを確実に管理し、データへ効率的にアクセスできる階層型ストレージソフトとしては、HPSSが最も優れています。HPSSとの相性が最も良い分散共有ストレージ基盤がGPFSであることから、この2つのテクノロジーを使ってストレージシステムを構築するという選択肢に辿りつきました。この仕組みを活用し、日々発生するデータをテープ媒体にアーカイブしつつ必要な時にデータをディスクにキャッシュさせることで、研究者たちがストレスなく実験に集中できるシステム環境を実現しています」(村上氏)
3. イプリザとAITが密に連携し8か月で最新システムに移行
KEKでは2024年に、計算機システムを刷新しました。新システムでは、プライマリのストレージサーバーにIBM Storage Scaleを搭載したIBM Elastic Storage Serverを採用し、ニアラインとアーカイブ領域にIBM TS1160テープ・ドライブを搭載するIBM TS4500 テープ・ライブラリーを採用した階層型の構成となっています。スペック面では、プライマリ側に30PBのディスクを用意し、データアクセス効率を高めるためにキャッシュとして10PBの容量を確保。テープストレージは今後を見越して最大で100PBまで拡張できるようにデザインされているのが特徴です。計算サーバーとディスクシステムとの間の帯域は100GB/sに設計され、高速なI/Oスループットを実現しています。
構築にあたっては、前述条件のもとで入札を実施し、イプリザとAITの提案を選定。プロジェクトは、村上氏がリーダーとなるKEK側のチームと、HPSSやテープストレージに深い知見を持つイプリザのチームが連携し、アカデミア領域で豊富な実績を持つAITがメインで構築を担当する形で進めました。
2024年1月にプロジェクトを開始し、同年9月に新システムが稼働しています。
プロジェクトを進めるにあたっては、新たなシステムに大量のディスクデータを移行させる必要があり、何度もテストをしながら確実にシステム移行を実施するなどの作業負荷が発生したほか、「大規模なプロジェクトの中で、各チームの連携や工程管理の面で苦労が生じました」と村上氏は明かします。ただしその際に、チーム同士でプロジェクト管理がしっかりと行われていたため、円滑に作業を進めることができ、期日通りに高い品質で完了できたことは、イプリザとAITの貢献が大きいと振り返ります。
「研究者が実験をするために使っているソフトウェアは独自のもので、マニュアルが存在していないものも多いです。そのため新しいハードウェア上でソフトウェアを稼働させるためには、我々が協力してKEKに散在しているドキュメントを集めたり、コードを調べたりして対応してもらう必要がありました。そのような状況下でも、スケジュールの同期を取りつつ横の連携をしっかりと行えたことで、大がかりなプロジェクトを計画通りに遂行できました」
4. テープ保存を意識することなく研究者が実験データにアクセス可能
KEKのストレージシステム上では現在約50PBのデータをマネジメントしつつ、1日に200TBのデータが発生しても、確実にテープにマイグレーションできるようになっています。新システムに移行してから処理速度も向上し、これまで安定して稼働しているとのことです。
「実験データを保存する際には、ユーザーがディスク上のHPSS階層型ストレージ領域にデータを書き込めば、自動的にテープにマイグレーションされます。これまでにデータのロスも発生していません。データを扱う際には、HPSSがテープ・ライブラリーのロボティクスを使うことによってユーザーがテープ媒体をほぼ意識することなく、ディスクと同じような感覚でデータにアクセスできるようになっています。その意味で、ユーザーからは信頼あるシステムとして認識されているといえるでしょう」(村上氏)
保守もイプリザが担当していますが、「問題の発生時にその都度しっかり相談に乗ってもらっていて、柔軟かつ手厚いサポートを継続的に実施してくれています」と村上氏は同社の対応力を評価します。
「他では仕様書に入っていないことを理由にサポート対応を断られるところにも、真摯に対応してもらえています。アカデミアという特殊な性質を理解して付き合ってくれていて非常に助かります」
その背景にあるのが、昨今の世界的な学術研究領域における厳しい状況です。研究用のシステムを構築するにあたっても技術だけを見据えればよい状況ではなく、村上氏も頭を悩ませていると明かします。
「限られた予算とリソースの中で効率化と工夫を重ねて対応してきましたが、それだけでは済まないところに来ています。その中で大量データのマネジメントに関しても、長いレンジで見てどのようなソリューションが最適かも考えていかなければなりません。厳しい状況ですが、HPSSの開発チームとは長い付き合いがあり我々が置かれている環境も理解され、今までも問題解決をサポートしてくれました。引き続き密にコミュニケーションをとりながら、最適な姿を模索していきたいと考えています」
AITとイプリザは、新しいテクノロジーの提案も含めて引き続きKEKに協力し、時代を切り拓くような研究成果の創出に向けて支援を続けていく構えです。
※掲載内容は、取材当時のものです。