高速推論チップ開発のGroqが強力なビジュアル言語モデルLLaVA1.5 7Bの提供開始 その影響とユースケースとは?
GroqがLLaVA1.5のAPIを公開、ビジュアル言語モデルの可能性
高速推論チップを開発するGroqが、ビジュアル言語モデルLLaVA1.5 7BのAPIをリリースした。このモデルは、LLaVA(Large Language and Vision Assistant)と呼ばれ、OpenAIのCLIPとメタのLlama 2 7Bモデルをベースに開発された最先端のマルチモーダルAIだ。 Groqは、このLLaVA 1.5 7B(llava-v1.5-7b-4096-preview)をGroqCloud Developer Consoleで提供開始したことを発表。これにより、GroqCloudはテキスト(Gemma2やLlama3.1など)、音声(Whisperモデル)に加え、画像にも対応できるプラットフォームに進化を遂げたことになる。 LLaVAの特徴は、視覚的指示に従う能力と視覚的推論能力を備えていることだ。画像内容に基づく質問応答(VQA)、画像の説明文生成、画像内のテキスト認識(OCR)、画像とテキストを組み合わせた対話などの機能を持つ。2023年9月時点で、LLaVA 1.5は5つの学術VQAベンチマークを含む計7つのベンチマークで最高水準の性能を達成しており、視覚入力に基づくテキスト理解・生成において卓越した能力を示している。 このモデルの実用的なアプリケーションは多岐にわたる。たとえば、小売業では店舗の棚画像から在庫レベルを追跡し、在庫切れ間近の商品を特定することが可能となる。ソーシャルメディアプラットフォームでは、画像の説明文を自動生成し、その情報を音声モデルで再生することで視覚障害を持つユーザーの画像内容理解を促進することもできる。カスタマーサービスチャットボットでは、テキストと画像の両方を含む対話を行い、顧客が製品について質問し回答を得ることが可能になるかもしれない。 産業別の具体的な活用例も挙げられる。製造ラインでは、製品の検査や欠陥の特定を行い、品質管理エンジニアの品質管理プロセスを自動化できる。また金融分野では、請求書や領収書などの財務文書を監査し、会計や簿記タスクの自動化を支援する。小売業では、製品パッケージやラベルなどの製品画像を分析し、在庫管理や製品推奨タスクの自動化が可能になる。さらに教育分野では、図表やイラストなどの教育用画像を検証し、学生がより効果的かつ効率的に学習できるよう支援する仕組みも構築できる可能性がある。