グーグル最新「TPU」がAIとクラウドを変革--「Trillium」の5つの強みと2つの課題
Googleの最新イノベーションである「Trillium」は、人工知能(AI)とクラウドコンピューティングにおける大幅な進歩を示している。同社の第6世代「Tensor Processing Unit」(TPU)として、大規模なAIインフラストラクチャーの経済性とパフォーマンスの概念を塗り替えるものと期待されている。「エージェント時代」向けに設計された高度なAIモデル「Gemini 2.0」や、複雑な機械学習クエリーの管理を合理化するツール「Deep Researc」と並んで、GoogleのAI製品とクラウド製品を変革する非常に大胆かつ成熟した取り組みとして異彩を放つ存在だ。 ここでは、TrilliumがGoogleのAIおよびクラウド戦略を一変させる要因となり得る有力な根拠を5つ紹介する。 1. 優れたコスト効率とパフォーマンス効率 Trilliumの最も印象的な特徴の1つは、非常に優れたコストとパフォーマンスの指標だ。Googleは、1ドルあたりの訓練パフォーマンスが旧世代のTPUの最大2.5倍、推論スループットが3倍だと主張している。Gemini 2.0などの大規模言語モデル(LLM)の訓練や、画像生成、レコメンデーションシステムのような推論を多用するタスクの管理に関連するコストを削減したい企業にとって、Trilliumは経済面で魅力的な代替ソリューションとなる。 AI21 Labsなどの企業が早期に導入したことが、Trilliumの可能性を際立たせている。TPUエコシステムを長年利用しているAI21 Labsは、Trilliumを使用したLLMの訓練において、コスト効率とスケーラビリティーが著しく向上したと報告した。 「AI21は常に、『Mamba』『Jamba』言語モデルのパフォーマンスと効率の向上に努めている。TPUをバージョン4から長年使用しているが、Google CloudのTrilliumの性能には驚くほどの感銘を受けた。規模、速度、コスト効率の進歩が著しい。Trilliumは、次世代の洗練された言語モデルの開発を加速して、これまで以上に強力でアクセスしやすいAIソリューションを顧客に提供する上で、不可欠なものになるだろう」(AI21 Labs 最高技術責任者のBarak Lenz氏) こうした初期の成果は、Trilliumの見事な機能や、パフォーマンスとコストに関するGoogleの主張を実現する能力を示しており、すでにGoogleのインフラストラクチャーを導入した組織にとって、Trilliumは魅力的な選択肢となる。 2. 大規模なAIワークロードに対応できる優れたスケーラビリティー Trilliumは、卓越したスケーラビリティーで大規模なAIワークロードを処理できるように設計されている。Googleは、「Gemini」「Gemma 2」「Llama 3.2」などの強力なオープンソースモデルに関して、12ポッド(3072個のチップ)でのスケーリング効率が99%、24ポッドでの効率が94%だと主張している。このほぼ線形のスケーリングにより、Trilliumは広範な訓練タスクと大規模な展開を効率的に管理することができる。 さらに、Google Cloudの「AI Hypercomputer」と統合されているため、1つの「Jupiter」ネットワークファブリックに10万個以上のチップをシームレスに追加でき、13ペタビット/秒の帯域幅を達成可能だ。このレベルのスケーラビリティーは、増大するコンピューティングニーズに対応できる強力かつ効率的なAIインフラストラクチャーを求める企業にとって、極めて重要になる。 膨大な数のチップで高いスケーリング効率を維持できるTrilliumは、大規模なAI訓練タスクにおける有力な候補だ。このスケーラビリティーによって、パフォーマンスを犠牲にせず、法外なコストをかけることなくAI運用を拡大できるため、壮大なAI戦略を持つ企業にとって魅力的なソリューションとなる。 3. 先進的なハードウェアイノベーション Trilliumは、並外れたパフォーマンスとコスト削減を実現できるように設計されており、旧世代のTPUや競合製品と一線を画す先進的なハードウェアテクノロジーを備えている。主なイノベーションとしては高帯域幅メモリー(HBM)の容量倍増があり、これによってデータ転送速度が向上し、ボトルネックが削減される。さらに、TPUシステムアーキテクチャーの一部として組み込まれた第3世代の「SparseCore」が、リソースを最も重要なデータパスに振り向けることで、演算効率を高める。 チップあたりのピークコンピューティングパフォーマンスが4.7倍に増加し、処理能力が大幅に向上した点も目を引く。このような進歩によって高負荷のAIタスクへの対応が可能になり、未来のAIの開発とアプリケーションを支える強固な基盤が得られる。さらに、ハードウェアの改善によってパフォーマンスが向上し、エネルギー効率が高まるため、Trilliumは大規模なAIの運用における持続可能な選択肢となる。Googleは先進的なハードウェアに投資することで、TrilliumがAI処理機能の最先端を進み続けて、複雑さとリソース消費が増すAIモデルをサポートできるようにしている。