JLUG 2024 開催レポート
Lustreは、大規模データセットと高速アクセスを提供する高速ファイルシステムで、科学研究、シミュレーション、金融モデリングなどの分野で広く利用されており、近年、AI/LLMの分野で急速に広がっているオープンソースファイルシステムです。
Lustreの日本のユーザグループJLUG(Japan Lustre User Group)は、毎年年次カンファレンスを開催しています。
2024年12月13日に開催されたカンファレンスから、ユーザーの事例を紹介するユーザーセッションの概要をご紹介します。詳細については、アジェンダ・講演資料をご覧ください。 ※以下、講師名敬称略
完全自動運転AI開発に必要な計算環境とストレージ性能の重要性
チューリング株式会社 開発部 シニアインフラエンジニア 渡辺 晃平 氏

チューリング社は、完全自動運転を行うAIの開発を行っている企業です。講師の渡辺氏から、膨大なデータを収集しAI開発に活用する同社のシステムが紹介されました。
同社の開発している完全自動運転は、「End-to-End(E2E)自動運転」と呼ばれる、機械学習によって構築した学習モデルに基づいてAIによる自動運転を実現する方式です。そのためのAIを開発するには、データ収集とデータを学習させたAIモデルの開発が重要になります。同社のシステムでは、実車が走行して収集した膨大なデータを一度クラウド上のオブジェクトストレージに保存します。このデータから使用できないデータを除去するクレンジングを行った後、オンプレミスのGPUクラスタ(「Gaggle Cluster」)からアクセス可能な大規模ストレージに配置してモデル学習を行わせています。データセットは本物の実車が1日走行すると数TBのデータが収集できます。最終的なデータセットの目標は走行時間で4万時間、データサイズペタバイトスケールを想定しています。この巨大なデータセットを格納する大規模ストレージとしてLustreを使用しています。GPUクラスタとの間は100Gイーサネットで接続しており、1ペタバイトのLustreストレージを用意していますが、3ヶ月ほどで大体20%から30%ほどを消費しています。
Lustreを選定した理由は、シンプルに性能と拡張性を実現できるストレージが必要だったからとのことです。実際のワークロードも、GPUが機械学習を行っている間はデータの読み込みが継続的に行われ、学習結果を定期的にまとめて書き込む、というシンプルな動作をしています。AI基盤においては、学習データを読み込むスループットが高速であることが重要となります。
2025年には公道での30分間の自動運転の実験を予定しており、2030年には完全自動運転の実現を目指しています。
進化したAI計算基盤ABCI 3.0とそのファイルシステム
産業技術総合研究所 量子・AI融合技術ビジネス開発グローバル研究センター 滝澤 真一朗 氏

産業技術総合研究所(以下、産総研)では、AI研究向けの計算機システム「ABCI」(AI Bridging Cloud Infrastructure)を2018年から運用しており、2024年度からは「ABCI 3.0」の導入を進めています。2012年頃から深層学習の技術が盛んになり始めましたが、日本国内でも大規模な研究が行えるようにするためにABCIの整備が始まりました。その後、2021年には新しい計算機を導入して「ABCI 2.0」となっています。
ABCIの利用者はビギナーからエキスパートまで幅広く、ハッカソンやワークショップを開催したり、最先端の研究のために大規模に計算機資源を提供するプログラムなども実施してきました。
しかし、近年の生成AIの開発・活用のためにはABCI 2.0の10倍以上の計算能力が要求されるため、ABCI 3.0はこの要求に応えるためにプロジェクトがスタートしました。計算能力は6.22EFLOPSとなり、従来の7倍から13倍の計算能力となります。
システムの構成はコンピューターノードが766台、ストレージとの接続はInfiniBand HDR(200Gbps)で接続され、ストレージはオールフラッシュで75ペタバイト用意されており、Lustreファイルシステムを提供しています。また、オブジェクトストレージも提供を予定しています。75ペタバイトの内訳は、システム・ユーザー領域として240億inode・10ペタバイト(ユーザーあたり1TB)、グループ領域として480億inode・63ペタバイト、オブジェクト領域として240億inode・1ペタバイトとなっています。スループットはユーザ・システム領域で266GB/秒、グループ領域で1333GB/秒、オブジェクト領域で100GB/秒となっています。また、I/Oをモニタリングして生成AIのI/O特性を分析しています。容量、性能共にABCI 2.0の2倍以上を提供しています。
マルチテナントサービスに適用してみた-セキュリティの実現について
三井情報株式会社 イノベーション推進部 部長 石原 慎也 氏

創薬支援サービス「Tokyo-1」におけるストレージのセキュリティについて紹介しました。
「Tokyo-1」は、三井物産100%子会社の株式会社ゼウレカが事業運営を担い、三井情報のバイオインフォマティクス部門とインフラ基盤部門が共同で構築・運用プロジェクトを推進し、維持されるものです。
提供するサービスは、「創薬AIソリューション」と「大規模計算リソース」の2つであり、創薬研究の大幅な効率化と成功率の改善に貢献することを目指しています。また、これらのサービス提供のほか、創薬における共創・協働型コミュニティの形成を行っていくことがプロジェクトの狙いとなっています。
コミュニティがターゲットしている企業は製薬会社、バイオテック企業やヘルスケアAI開発ベンチャー企業と多岐に渡っており、ストレージに配置するデータのセキュリティを考慮する必要があります。
ユーザーからの要望に応える形で、ユーザー毎に秘匿化された領域と、コミュニティとして共創・協働するための領域の両方を提供しています。GPUリソースを固定的に、またフレキシブルに追加できることも特徴的です。
データのセキュリティについては、テナント毎にストレージを論理分割しアクセス制限を行うと共に、テナント毎にストレージの暗号化を行っています。また、ネットワークもOverlay Networkでネットワークを論理分割しています。具体的には各テナントを異なるVLANで分割し、ACLでテナント間のアクセスを隔離しています。
ストレージにLustreを採用した理由としては、ネームスペースでテナント毎の分離が容易であることや、ストレージが分散型のアーキテクチャであるため外部からの不正アクセスによるデータ復元が難しいことなどが挙げられます。暗号化については、Linuxカーネルの機能であるfscryptを使用してテナント毎のディレクトリを暗号化しています。
その他のポイントとして、InifiBandではなくEthernetを使ってストレージネットワークを構築しており、RDMAを使ったロスレスネットワークを構成しています。具体的にはRoCEv2(RDMA over Converged Ethernet)を使用しています。実際にトラフィックを流して検証を行い、制御のためのPFC(Priority-based Flow Control)の設定を行っています。
パフォーマンスについてはスループットを計測したところ、物理インターフェースの速度100Gbpsに対して実測約90Gbpsのスループットを計測しており、暗号化を行ってもほぼ理論値に近いパフォーマンスを実現しています。
日立製作所 生成AI/AI/HPCシステムにおけるストレージ環境
株式会社日立製作所 研究開発グループ 地域戦略統括本部 主任研究員 清水 正明 氏

研究開発グループは日本国内だけでなく全世界に拡がっており、関わっている研究領域も広範囲に渡っています。そのような研究を行うための基盤として、オンプレミスのAIクラスタやHPCクラスタを構築運用しています。大規模高速ファイルシステムとしてLustreを採用しており、InfiniBandで接続しています。
AIクラスタでは、メタデータ性能とスループット性能の強化を主眼に構築しています。深層学習用途においては、学習データは小さいサイズのファイルが大量にあるため、DNE(Distributed Namespace Environment)によりメタデータの多重化を行ってメタデータ性能を強化しています。また、数百の計算ノードからのアクセスに耐えられるようにするため、ストレージのHDDを多く用意することで目標となる性能を達成しています。2019年に構築しましたが、40GB/秒の性能を達成しています。
また、全社で利用する生成AI共通基盤を構築運用しています。パブリッククラウドとオンプレミスのハイブリッドな環境を利用しており、用途等に応じて使い分けています。オンプレミス環境のストレージは以前に構築したAIクラスタと比較すると、ネットワークの性能を16倍に強化しています。ストレージにはHDDだけでなくNVMe SSDを取り入れ、スループット性能が4倍、IOPSが222倍まで増強することができました。
推論などを行うサーバーはOpenShiftを使って構築しており、高速なEthernetで接続したLustreをコンテナの利用するPV(Persistent Volume)として利用しています。
最先端共同HPC基盤施設の新システムMiyabiのファイルシステム
東京大学 情報基盤センター 教授 博士 塙 敏博 氏

最先端共同HPC基盤施設(JCAHPC・Joint Center for Advanced High Performance Computing)は、筑波大学計算科学研究センターと東京大学情報基盤センターの協力の下で設立され、より高性能な大規模システムの構築運用を行ってきました。JCAHPCは2013年に設立され、第一世代のシステムとして「Oakforest-PACS」(OFP)を構築しました。今回紹介する「Miyabi」は、OFPの後継システム(OFP-Ⅱ)になります。
OFPでは、Lustreを26.2PBの容量、500GB/秒のピーク性能で構築していました。また、高速なファイルキャッシュシステムとしてIME(Infinite Memory Engine)を導入し、940TBのNVMe SSDで1.56TB/秒のピーク性能を実現していました。
2021年からは、東京大学情報基盤センターではWisteria/BDEC-01というシステムを構築運用しています。シミュレーションノード群とデータ・学習ノード群の2つで構成されていますが、共有用と高速なファイルシステムを用意しています。
これらのシステムを踏まえて、次世代のMiyabiのストレージに向けて検討したこととしては、まずNVMe SSDを用いた高速なストレージが必要である、ということです。また、当初の案ではコストの観点からNVMe SSDとHDDを併用した階層型のストレージを検討していましたが、最終的には運用が容易になるようすべてNVMe SSDで構成し、コストを抑制するために容量を10PBに減らすことにしました。アーカイブ用に別途HDDベースのストレージ(Ipomoea-01)が26PBあるので、そちらと併用することになります。
Miyabiは2025年1月に運用を開始しました。80.1PFLOPSのシステムとなります。ストレージはInfiniBand NDRで構成し、400Gbpsの帯域を確保しており、各計算ノードには200Gbpsで接続されています。性能はまだ正式には計測できていませんが、OFPのキャッシュと同等の性能が実現できていると考えています。
GPUからのストレージI/Oの高速化という点では、ストレージ上のファイルをmmapして直接参照できるようにしたり、NVIDIAが提供しているGPUDirect Storageを使うなどして、より高速なストレージI/Oを実現していきたいと考えています。
大規模言語モデル開発における計算機とファイルシステムの運用
国立情報学研究所 大規模言語モデル研究開発センター 特任准教授 小田 悠介 氏

国立情報学研究所 大規模言語モデル研究開発センター(LLMC)では、オープンで日本語に強い大規模言語モデル「LLM-jp-3 172B」を開発しています。
現在開発しているLLM-jp-3のモデルサイズは、大きいものから小さいものまでありますが、一番小さい1.8Bのモデルで18億パラメータ、一番大きい172Bが1720億パラメータとなります。学習モデルのファイルサイズとしては、概ね2倍にして、172Bの場合には340GBぐらいのファイルサイズとなります。
開発している学習モデルのうちLLM-jp-3-172B(instruct)は、平均値でGPT-3.5を超えて、GPT-4.0に近い性能となっています。
LLM-jpの構築における学習データとなる事前学習コーパスは、現在の言語においては数兆トークン(※トークンは概ね単語数と考える)となっています。現在の目標は日本語で3兆トークンを集めることで、科学技術文書や著作権の切れた出版物、議会の議事録などを収集しようと考えています。これらを我々が集めて率先してオープンにすることで、皆さんに使ってもらうという形になっています。また今後は画像などの生成を目的に、画像や音声、映像データを集めていこうと思います。これらのデータを集めると膨大なサイズとなるので、そのためのストレージを用意する必要が出てきます。
大規模言語モデル構築は、数兆トークンの事前学習コーパスを初期化モデルに事前学習させることで、事前学習済みモデルができあがります。さらにチューニングデータを読み込ませてチューニング済みモデルを構築します。データの容量としては、事前学習コーパスが100TB、事前学習済みモデルが10GBから1TB、最大のもので2TB以上のものを数百から数千個保管する必要があります。今後、マルチモーダルなデータを使うことになると、さらにデータ容量が大きくなっていくことになり、事前学習用のデータが100TBから10PBぐらいになることが予想されます。
また、このような学習モデル構築のストレージは、事前学習コーパスからのデータの読み込みはステップ毎に数十MBを断続的に読み込む安定したアクセスになり、モデルの学習結果は数十分から数時間毎に数百GBから数TBを一度に書き込むという、それぞれ異なった性能、性質の読み書きが発生します。ストレージの書き込みをしている間は計算が停止してGPUが使われないためコスト的に大きな損失となるので、できるだけ書き込みを早く終わらせる必要があります。
これまで様々な計算資源を使ってきていますが、モデルの書き出し先としてすべてLustreを使っています。東京大学のmdxクラスタやGoogleクラウドで構築したクラスタ、そしてさくらインターネットのクラスタなどを使っています。
LLM-jp-3 172Bの学習ですが、この講演の時点で最終局面を迎えており、まさに先ほど終了しました(会場内から大きな拍手)。成果は公開予定ですので、ご期待いただければと思います。