ヒンディー語などローカル言語でGPT‐4を上回る大規模言語モデル開発へ、活発化するインドでの生成AI開発の取り組み
活発化する各国における生成AI開発
ChatGPTのベースとなっているGPT‐3.5やGPT-4などの大規模言語モデルのほとんどは、英語中心のデータによってトレーニングされており、英語以外の言語を苦手とする場合が多い。 GPT‐3.5やGPT-4は比較的英語以外の言語に強い方だが、他のモデルに至っては、日本語などの非英語によるプロンプト(指示)を理解しないケースも多く、英語とそれ以外の言語におけるギャップを取り除くのが今後の大きな課題となっている。 たとえば、オープンソースの中で最も強力なモデルといわれるメタのLlama2のトレーニングデータの言語別内訳を見ると、英語が89.7%で最多、これに「その他」が8.38%と続き、他の言語データはすべて1%に満たない状況だ。他言語のうち最も比率が高いドイツ語でも0.17%にとどまり、日本語は0.1%のみ。日本語に対応させるには、Llama2に追加の日本語データを与えファインチューニングするプロセスが必要となる。 このようにほとんどの大規模言語モデルが英語中心となっている中で、ローカル言語に対応した大規模言語モデルを開発しようという動きが各国で活発化しており、英語以外の言語でも高いパフォーマンスを示すモデルが登場しつつある。 たとえば、フィンランドの現地スタートアップSilo AIは、2023年11月にフィンランド語に強い大規模言語モデルPoroを公開。340億のパラメータを持つモデルで、フィンランド語に加え、将来的には欧州連合の公式言語である24言語に対応させる計画であるという。 大規模言語モデルは開発(トレーニング)・運用(推論)に膨大なコストがかかるが、Silo AIは欧州各国が支援するスーパーコンピューターLUMIを使用。 LUMIは、フィンランド、ベルギー、チェコ、デンマーク、エストニア、アイスランド、ノルウェー、ポーランド、スウェーデン、スイスによって構成されるLUMIコンソーシアムが運用するスパコンで、フィンランドのKajaaniに設置されている。512のAMD Instinct MI250X GPUが搭載されており、処理速度は最大74ペタフロップス。「プレエクサスケール」のスパコンと呼ばれている。 このほか直近では2024年2月2日に経済産業省が発表した「GENIAC」プロジェクトが挙げられる。同プロジェクトは、クラウドリソースなどの提供を通じて国内プレイヤーのAI開発を支援し、日本語に強い大規模言語モデルの開発を目指すもの。実際のモデル開発は、ABEJA、Preferred Elements、東京大学、Sakana AIなど選定された国内7つの企業・組織が担うことになる。