AIハイパースケーラー向けのオールフラッシュストレージを提供するVAST Dataの強みとは?
VAST Dataは、2016年に設立されたオールフラッシュのストレージ機器ベンダーで、主にAIハイパースケーラー(AI向けのGPUクラスターなどを構築するハイパースケーラーのこと)向けのストレージ機器を販売しており、昨今の生成AIブームというトレンドにのって急成長している企業だ。 【画像】巨大なGPUクラスターを活用する「AIハイパースケーラー」が続々誕生している(出典:VAST Data) その日本オフィスが本年に開設され、そのカントリーマネージャーに就任したのが藤井洋介氏。これまでもストレージ機器ベンダーでビジネスに携わってきたという藤井洋介氏に、VAST Dataの特徴や日本における戦略などに関して話を聞いた。 ■ 生成AIの学習需要が高まり続け、GPUクラスターが巨大化するにつれて注目を集めるクラスター用ストレージ 今や「AI」という言葉を聞かない日はないと言っても過言ではない。特に2020年代前半に始まったトランスフォーマーモデルと呼ばれる新しいファウンデーションモデル(AIの基本的なアルゴリズムのこと、基盤モデル)は、LLM(大規模言語モデル)や画像生成モデルなどのコンテンツを生成することが可能なモデルとして「生成AI」と呼ばれるようになり、ChatGPTなどのLLMが話題になった。そのことから、ITの世界だけでなくIT以外の企業などでも採用が進んでおり、自社のニーズにあった生成AIのモデルを構築してほしいというニーズが日々高まり続けている。 そのため、このようなファウンデーションモデルの開発に必要な、ファウンデーションモデルを学習するニーズも日々高まり続けている。AIモデルの学習には、非常に膨大な演算リソースが必要になることから、AI学習の現場では、GPU(Graphics Processing Unit)を使うのが一般的で、それを利用しても大規模なファウンデーションモデルの学習には数週間~数カ月、場合によっては年単位での時間がかかるようになっているのだ。 こうした場合、GPUも単なる単体のサーバー製品(一般的に1つのGPUサーバーは8xGPUが1ユニットになっている)として使うのではなく、200Gbpsや400Gbpsのイーサネット、InfiniBandなどで数百~数千までスケールアウトし、「クラスター」として利用するのが一般的だ(以下、そうした大規模なGPUシステムをGPUクラスターと呼ぶ)。 また学習では、大規模なデータセットを利用してモデルに読み込ませるのが一般的なため、大容量のデータを高速に読み込めるようにしておく必要があり、ストレージの性能も演算効率に大きな影響を与えることになる。このため大規模なGPUクラスターでは、演算ユニットとストレージを分離して利用するのが一般的で、近年では、そうした大規模なGPUクラスター向けのストレージを提供するベンダーにも注目が集まってきている。 ■ イーサネットやInfiniBand上でNVM Expressのプロトコルを実現するNVMeファブリックが技術的な肝 そうした、GPUクラスター向けのストレージビジネスで注目を集めているベンチャー企業がある。それが2016年に創業された「VAST Data」だ。同社は、後にDell EMCに吸収されるXtremIO社のアーキテクトだったレネン・ハラック氏(現CEO)など、3名の創業者により創業されたオールフラッシュのストレージベンダーである。 VAST Data 日本カントリーマネージャー 藤井洋介氏によれば、「VAST Dataは創業時からオールフラッシュストレージを掲げてきたが、同時に、DASEというハイパースケール向けのアーキテクチャを導入して展開してきたことが評価されており、それが大規模に学習を行うGPUクラスター向けに導入される例が増えている」とのことで、同社がDASE(Disaggregated Shared Everything Architecture)と呼んでいる、ハイパースケール向けの分散型アーキテクチャを採用している点が強みだと説明した。 このDASEでは、CPUやGPUに相当するコンピュートノードと、ストレージノードが完全に分離されているため、CPU・GPU側もストレージ側も、性能や容量を必要に応じて増やしていける。それらの2つのノードを接続するのが、同社が「データセンター規模のNVMeファブリック」と呼んでいるネットワークになるという。 このNVMeファブリックは、イーサネットやInfiniBandなどのネットワークを物理層として利用し、その上のソフトウェア層では、プロトコルとしてNVM Express(NVMe)が利用されている。つまり言ってみれば、「NVMe over Network」のような仕組みになっている。 コンピュートノード(CPUやGPU)からストレージを見ると、NVMeで接続されているローカルストレージにしか見えないため、性能のオーバーヘッドが少なく、同時にネットワークアドレスの制限に起因するような容量の制限がなくなる。藤井氏によれば「エクサバイトクラスまでスケールできる」とのことで、容量に関する制限がなくなるのがDASEのメリットになる。 またVAST Dataのストレージノードは、低価格のQLCと高性能なSCM(Storage Class Memory)を組み合わせているため、高性能かつ低コストが実現されており、性能とコストのバランスが取れていることも、もう1つの特徴だという。 VAST Dataの藤井氏は、そのようなソリューションが利用されている事例として、「大規模GPUクラスターを展開しているCoreWeave社などのAIハイパースケールで採用されている」とし、特にAIハイパースケールで注目が集まっていると説明した。 ■ NVIDIAと連携を加速し、NVIDIA NIMの推論環境を自社の推論サービスに統合 こうした特徴を持つ製品を展開しているVAST Dataだが、11月には、NVIDIA Partner Networkのクラウド・パートナーの認定を取得したとの発表を行った。VAST Dataの藤井氏が「われわれのストレージはNVIDIAストレージ・パフォーマンス・ガイドラインに準拠した設計になっており、実効容量や実効性能はNVIDIA社のガイドラインを上回っている」と話す通り、NVIDIAのDGX-H100 SuperPODのリファレンスアーキテクチャで示されているターゲット性能を上回っているという。 さらに、NVIDIAが提供しているAI推論環境である「NVIDIA NIM」を利用して、さまざまな推論ソリューションを実行できる「VAST InsightEngine with NVIDIA」の提供も11月に発表された。 藤井氏は「NVMeを活用して、データをできるだけ小型化して格納する仕組みを採用することで、データを効率よく格納できるようになっている。それによりRAGを利用した推論エンジンなどを効率よく利用できるようにする」としており、AI推論の演算をより効率よく行うための仕組みがVAST InsightEngineで、それをNVIDIAのGPUを活用することで、より高効率にして提供していると説明した。 なお、このVAST InsightEngine with NVIDIAは2025年初頭からの提供が予定されているとのことだ。 今後も生成AIへの演算ニーズは増えることは想定されているが、減ることはあまり想定されていない。そう考えると、VAST Dataのような、GPUクラスター向けのストレージのニーズも増えることが容易に想像できるだけに、今後要注目のベンダーの一つになることは間違いないだろう。
クラウド Watch,笠原 一輝