高速推論チップ開発のGroqが強力なビジュアル言語モデルLLaVA1.5 7Bの提供開始 その影響とユースケースとは?
そもそもLLaVAとは?分かりやすく解説
冒頭でも述べたがLLaVA(Large Language and Vision Assistant)は、OpenAIのCLIPとメタのLlama 2 7Bモデルを基に開発された先進的なマルチモーダルAIだ。 CLIPとは、Contrastive Language-Image Pre-trainingの略で、OpenAIが開発した画像と言語を結びつけるマルチモーダルモデル。CLIPは大量の画像とそれに関連するテキストのペアを学習することで、画像と言語の間の関連性を理解し、幅広い視覚タスクに適用できる汎用的な能力を獲得している。 一方、Llama 2は、メタが開発した大規模言語モデル(LLM)。Llama 2は様々なサイズで提供されており、その中でも7Bモデル(70億のパラメータを持つモデル)は、比較的小規模ながら高い性能を示すことで知られている。Llama 2は幅広いテキスト生成タスクに対応可能で、特に指示に従う能力に優れている。 CLIPの視覚理解能力とLlama 2の言語処理能力を統合することで、LLaVAは画像理解と言語生成を高度に組み合わせたタスクを遂行することが可能となっている。 LLaVAの主要機能は以下の4つ。 1つ目は画像内容に基づく質問応答(VQA)だ。たとえば、画像中の特定の物体の色や数を問う質問に答えることができる。2つ目は画像の説明文生成で、提示された画像の内容を自然言語で詳細に記述する。3つ目は画像内のテキスト認識(OCR)能力で、画像中に含まれる文字や数字を読み取ることができる。そして4つ目は、画像とテキストを組み合わせた対話能力だ。ユーザーが画像に関連した質問をすると、LLaVAはその画像を参照しながら適切な回答を生成する。 LLaVAの柔軟性は、様々な形式の指示に対応できる点にも表れている。同モデルのテクニカルレポートでは、LLaVA1.5に対し「質問に事実誤認がある場合は指摘し、そうでなければ質問に答えてください」という複雑な指示を与えた場合でも、しっかりと内容を理解し、適切な回答を生成できたことが報告されている。たとえば、ハワイのコーストラインの画像を示しつつ、「この砂漠で何が起こっているのか説明してください」というトリッキーな質問をしても、LLaVA1.5は「この画像には砂漠は映っていない」と回答できることが確認されている。