メタに挑戦、Databricksもオープンソースモデル開発に参戦 最新モデルが示す意外な日本語能力
日本語における評価はどうか?英語論文要約タスクでの検証
前項で紹介したDBRXは、英語でのベンチマークでは非常に高い評価を得ている。しかし、日本語での性能はどうだろうか。この疑問に答えるべく、AnthropicのClaude3に関する英語の技術論文を各モデルに日本語で要約させるテストを行った。 検証にあたり、まず論文のテキストを抽出。全42ページのうち、最初の5ページ分の内容を日本語で要約するように指示するプロンプトを入力した。プロンプトの文字数は、空白込みで、19,615文字、空白なしで16,973文字と、比較的長めの文章となる。
検証の結果、オープンソースモデルの日本語対応には大きな課題があることが明らかになった。DBRXやMistral 7B Instruct、Llama v2 70B Chatはいずれも、日本語でサマリーを書くよう指示されているにもかかわらず、英語で回答を生成してしまったのだ。これは、これらのモデルが日本語の指示を正しく理解できていないことを示唆している。
この結果から、現時点でのオープンソースモデルは日本語への対応が不十分であり、実用レベルには程遠いと言わざるを得ない。日本語の指示に適切に応答できなければ、日本語圏のユーザーに満足のいくサービスを提供することは難しいだろう。 一方、OpenAIのGPTシリーズは比較的良好な結果を示した。GPT-3.5 TurboとGPT-4はいずれも、日本語の指示を的確に理解し、英文の内容を要領よくまとめられている。
この結果から、現時点でのオープンソースモデルは日本語への対応が不十分であり、実用レベルには程遠いと言わざるを得ない。日本語の指示に適切に応答できなければ、日本語圏のユーザーに満足のいくサービスを提供することは難しいだろう。 一方、OpenAIのGPTシリーズは比較的良好な結果を示した。GPT-3.5 TurboとGPT-4はいずれも、日本語の指示を的確に理解し、英文の内容を要領よくまとめられている。 日本企業がAIを活用する際は、モデルの多言語対応力を十分に見極める必要がある。英語のベンチマークだけを過信するのは危険といえるだろう。