高速推論チップ開発のGroqが強力なビジュアル言語モデルLLaVA1.5 7Bの提供開始 その影響とユースケースとは?
Groq CloudでLLaVA1.5を実際に使ってみる
Groq CloudでLLaVA1.5を実際に試すことができる。 たとえば、以下の寿司の写真を与え「how many rolls and sushi?」という質問を与えてみる。 回答は「巻き寿司が3つ、寿司(にぎり)が3貫」と、巻きずしとにぎり寿司を分類し、正確に寿司の数を答えることができた。
次にもう少し複雑な画像を与えてみた。プロンプトは上記と同じ「how many rolls and sushi?」。 回答は「巻き寿司が2つ、にぎり寿司が4貫」と不正確なものとなった。 ただし、仮に寿司に特化したシステムを構築する場合、寿司の画像でファインチューニングするのが定石。ファインチューニングすれば、精度は大幅に上昇するはずだ。 ビジュアル言語モデル領域では、Mistralの最新モデルPixtralのほか、マイクロソフトのFlorence2、グーグルのPaliGemmaなども有力モデルとして人気を集めている。ビジュアル言語モデルをめぐる開発競争、またGroqのようにクラウドで提供する動きはますます活発化することが見込まれる。
文:細谷元(Livit)