22人の小規模チームがGPT-4クラスのモデル開発に成功 新興AI企業Rekaの最新モデルの実力とは?
Reka Coreの強み・弱み
RekaCoreの最大の強みは、マルチモーダル性能の高さにあるといえるだろう。 マルチモーダルとは、テキストだけでなく、画像、音声、動画など、さまざまなデータフォーマットに対応できる能力のこと。特に、単一モデルで動画まで対応できるAIは少なく、主要モデルの中ではGemini Ultraのみだった。 ここに動画認識能力を持つRekaCoreが参戦する格好となる。動画認識のPerception testでは、唯一のライバルであるGemini Ultraを大きく上回るスコア(59.3 vs 54.3)を記録。一方、写真などの静止画を対象とする画像の認識能力を測るMMMUベンチマークでは、GPT-4(56.8)、Claude 3 Opus(59.4)、Gemini Ultra(59.4)、Gemini Pro 1.5(58.5)に次ぐ56.3と主要モデルに肉薄する実力を示している。 Rekaのテクニカルレポートによれば、MMMUベンチマークのカテゴリー別のスコアでは、RekaCoreは「Art(芸術)」(86.7)、「Literature(文学)」(90.0)、「History(歴史)」(80.0)など人文系の分野で高得点を獲得。一方、「Electronics(電子工学)」(26.7)、「Physics(物理)」(36.7)、「Architecture and Engineering(建築・エンジニアリング)」(40.0)など理系の分野ではやや苦戦した。ただ、芸術理論から農業、機械工学に至るまで、幅広い分野で50%以上の高得点を維持しており、その汎用性の高さがうかがえる。
ちなみに、MMMUベンチマークテストでは、左記のような問題が出題される。
また、知識タスクを測るMMLUでは83.2、基礎算数能力を測るGSM8Kでは92.2、コーディングのHumanEvalでは76.8と、GPT-4に並ぶ、または上回る高得点を叩き出した。さらに、RekaCoreは医療分野の推論タスクにおいて、専門特化型のMed-PaLM-2やGPT-4を超える実力も示した。3つのタスクの平均スコアは、Med-PaLM-2が79.4、GPT-4が81であるのに対し、RekaCoreは81.3を記録した。 価格面では若干の努力が必要かもしれない。RekaCoreの利用料はインプット100万トークンあたり10ドル、アウトプット100万トークンあたり25ドルとなっている。GPT-4 Turboがインプット(100万トークンあたり)10ドル、アウトプット30ドルであることを鑑みると、価格面での魅力は高いとは言えないだろう。