ELYZA、2つの新たな日本語特化の国産LLMを発表--短期で大幅な性能進化
今回発表したLlama-3-ELYZA-JP-70Bは、「ELYZA Tasks 100」では4.070、「Japanese MT-Bench」では平均9.075のスコアを達成。曽根岡氏は、「数学ではやや弱い部分があるものの、執筆やロールプレイ、抽出、推論、人文科学の知能、科学技術の知能、コーディングで高性能を達成している。複雑なプロンプトに従い、抽出や要約を行い、JSONで出力することもできる。性能は、GPT-4に比べて全体的に同等の水準であり、推論能力ではELYZAの方が優れている」と述べた。 GTP-4では、ELYZA Tasks 100のスコアが4.030、Japanese MT-Benchでは平均9.013となっており、Llama-3-ELYZA-JP-70Bはそれのスコアを上回った。2024年3月に発表したELYZA-japanese-Llama-2-70bでは、ELYZA Tasks 100のスコアが3.485、Japanese MT-Benchの平均スコアが7.500であり、これに比べるとLlama-3-ELYZA-JP-70Bは、大幅に性能が改善している。 曽根岡氏は、「従来の開発では、海外のLLMにどうやって日本語のデータを入力すれば効果的に学習ができるのか、どんなデータを蓄積するのかといったノウハウを重ねる必要があり、約1年間を要した。今回は蓄積したデータを活用できたため、約3カ月の短い期間に性能を大きく改善できた。Llama 3の進化も大きく影響している。KDDIグループに入ったことで、計算機リソースの確保や大胆な開発投資ができるという点でも大きな効果があった」とした。 もう一方のLlama-3-ELYZA-JP-8Bは、Tasks 100では3.655、Japanese MT-Benchでは平均7.775のスコアとなっており、曽根岡氏は「軽量モデルで、一般的なPCでも動作させることができる。ELYZA-japanese-Llama-2-70bの性能を上回っており、大きなジャンプアップを遂げた。実用的な日本語LLMとして幅広く提供していきたい」と語った。 ELYZAは、今後の事業方針で「選ばれるLLM開発」を掲げ、汎用LLMをベースに、業界特化LLM、企業特化LLM、タスク特化LLMの開発を進めることを明らかにした。「特化LLMの開発では、第1弾として日本の知識に詳しいLLMを作る取り組みを進めている。経済産業省の『GENIACプロジェクト』に採択され、法律や行政などの日本の知識や表現に対して、フィットするするLLMとなる。また第2、第3弾の特化LLMも仕込んでいる」(曽根岡氏) さらに同社は、ELYZA LLMシリーズをAPIサービスとして提供するほか、共同開発プロジェクトの開始など、さまざまな形態でLLM提供を行う考えも示している。 曽根岡氏は、2024年3月以降にLLMを取り巻く環境が大きく変化していることを指摘し、「OpenAI、Google、Anthropicから相次いで新モデルが公開され、オープンモデルにおける動きも活発化している。また日本語性能でもトップラインが次々に更新され、GPT-3.5 Turboの性能を超えるオープンモデルも増えている」とした。 また、「これまでどんなにがんばっても海外企業に勝てないのではないかという気持ちがあったが、あきらめずにやった結果、追い付くことができた。だが、どうやって勝てるかはもう少し考えないといけない。例えば、汎用モデルができないことを探索することも必要だ。特化するといった道筋も今後は重要になるだろう。例えば、日本は製造業が多く、製造業に関しては優れたLLMを作るのも勝ち筋の1つ」と語った。