メタのLlama3.1 405BがGPT-4に匹敵、AI市場で起こるオープンソース変革、合成データでAI開発はさらに加速へ
高度モデルが可能とするデータの合成、AI開発はさらに加速
Llama3.1 405Bのような高性能モデルの登場により、AI開発のさらなる加速が期待される。特に注目されるのが、合成データ生成への応用だ。 AIモデルの性能を左右する要素の1つはパラメータ数だが、最近それ以上にデータ品質が重要視されるようになってきている。パラメータ数が多くても、トレーニングに使うデータ品質が低いと、モデルの出力精度も低くなってしまうためだ。 OpenAIはGPT-4のパラメータ数を公にしていないが、推定では1兆以上あるといわれている。もし、この推定が正しければ、Llama3.1 405Bは4,050億という半分以下のパラメータ数で、GPT-4とほぼ同じパフォーマンスを達成したことになる。この背景には、データ品質の大幅改善があったと考えられるのだ。Llama3.1以外にも、大型モデルのパフォーマンスを超える小型モデルが続々登場しているが、それもデータ品質の改善が大きく寄与していると想定される。 今後のAI開発における重要課題は、大量の高品質データによるデータセットをどのように構築するのかということ。 そこで登場するのが、Llama3.1 405Bのような高度モデルだ。実際、メタはLlama3.1 405Bのユースケースの1つとして、合成データ生成を挙げており、AIコミュニティにおける利用を促進しようとしている。またメタ自身もLlama3.1ファミリーの開発において、「合成データ」を活用したことを明らかにしており、その効果を実証した格好となる。 合成データの自由度が高まると、これまで難しいとされてきたAIモデルの開発が一気に加速する可能性がある。 たとえば、医療分野では、患者のプライバシー保護や稀少疾患のデータ不足が常に課題となっている。高品質な大規模言語モデルを用いて精密な合成医療データを生成することで、これらの問題を解決しつつ、より精度の高い診断支援AIの開発が可能になるかもしれない。 また金融分野でも、顧客の個人情報を含まない高品質な合成データを用いることで、より安全かつ効果的な不正検知システムや信用評価モデルの開発が進むことが期待される。さらには自動運転分野では、現実世界では再現が困難な危険な交通状況を合成データとして生成し、自動運転AIの学習に活用することで、安全性の向上につながる可能性がある。高品質なモデルを用いれば、より現実的で多様な交通シナリオを生成できるだろう。 ガートナーの調査では2024年までにAI開発に使用されるデータの60%が合成データになると予測されている。Llama3.1 405Bの成功は、この予測を裏付ける一例となるかもしれない。 Llama3.1 405Bの登場によって、オープンソースモデルの可能性は飛躍的に高まったといえる。メタのザッカーバーグ氏と同じく、AIモデルのオープンソース化を標榜するイーロン・マスク氏も、米メンフィスに開設したスパコンデータセンターで、AIモデルをトレーニング中だ。このデータセンターは10万台に上るH100で構成されており、強力なAIモデルの登場が期待される。
文:細谷元(Livit)