動画分析もAIで自動化する時代に、NVIDIAのAI Blueprintが示す動画分析AIエージェントの可能性
NVIDIAのアプローチ、その詳細
前述したがAI Blueprintは、いくつかの重要な技術要素を組み合わせることで、高度な映像分析を実現している。その中核となるのが、視覚言語モデル(VLM)を活用したAIエージェントだ。 このAIエージェントは、NVIDIAのNIMマイクロサービスを通じて、複数の技術コンポーネントを統合したもの。具体的には、NVIDIAのVILAモデル、メタ社のLlama 3.1 405B、GPU加速による質問応答モデル、コンテキストを考慮した検索拡張生成(RAG)モデルなどが含まれる。開発者は、これらのコンポーネントを自社の環境や用途に合わせて置き換えたり、NVIDIAのNeMoプラットフォームを使って微調整したりすることが可能となる。 ユースケースとして、たとえばAIエージェントが安全プロトコルの違反を検知して作業員に警告を発する倉庫の安全管理システムや交通事故を特定してレポートを生成し、緊急対応を支援する交通監視システムなどが考えられる。また、航空写真から劣化した道路、線路、橋梁を特定し、予防保全を支援する公共インフラ保守点検システムを構築することも不可能ではない。 このほかにも、視覚障害者向けの映像要約、スポーツイベントのハイライト自動生成、他のAIモデルのトレーニング用データセットのラベリング支援など、幅広い用途が想定されている。さらにAI Blueprintは、AIを活用したデジタルアバター作成、パーソナライズされたカスタマーサービス向け仮想アシスタントの構築、PDFデータからの企業情報抽出など、すでに提供されている他のワークフローと組み合わせて利用することもできる。 NVIDIAによると、マレーシアやベトナムではスマートシティやスマート交通システムの開発でAI Blueprintが活用されているという。
AI Blueprintとはどのようなシステムなのか、NVIDIAのテストページで確認することが可能だ。 以下の例では、倉庫での作業現場動画をAIエージェントに読み込ませ、動画中に危険な場面がないかを問い合わせている。AIエージェントは、動画中で作業員が箱を通路に置いたまま作業している点を挙げ、通行のさまたげや危険につながると指摘することに成功している。