メタがモバイル向け「超小型」AIモデルを発表。加速するAIモデルの小型化、20倍大きいモデルに匹敵も
メタの超小型モデル、その実力とは?
では、メタが開発したMobileLLMの性能を具体的に見ていきたい。MobileLLMは、従来の大規模モデルに比べてはるかに少ないパラメータ数でありながら、驚くべき成果を上げている。 まず、ゼロショット常識推論タスクにおいて、MobileLLM-125Mは平均46.3%のスコアを達成した。このタスクは、モデルが事前学習以外の特別な訓練なしに、一般的な知識や常識を理解し適用できるかを測定するものだ。MobileLLM-125Mのスコアは、同じパラメータ数のOPT-125Mの42.6%、GPT-neo-125Mの42.9%を4ポイントほど上回る結果となった。さらに、MobileLLM-350Mは51.3%という高スコアを記録し、Pythia-410Mの46.6%やRWKV-430Mの47.0%を超えた。 質問応答タスクのTriviaQAでも、MobileLLMは優れた性能を示した。TriviaQAは、幅広い分野の質問に答える能力を評価するベンチマークだ。MobileLLM-125Mは1ショット(1つの例を示す)で13.9%、5ショットで14.3%、64ショットで12.5%のF1スコアを達成。これは、OPT-125MやGPT-Neo-125Mの2倍近い性能だ。MobileLLM-350Mになると、さらに性能が向上し、1ショットで22.0%、5ショットで23.9%、64ショットで24.2%という高スコアを記録している。 読解タスクのRACEにおいても、MobileLLMは既存モデルを上回る結果を示した。RACEは、中学・高校レベルの英語試験問題を基にした読解力テストだ。MobileLLM-125Mは中学レベルで39.7%、高校レベルで28.9%の正解率を達成。MobileLLM-350Mは中学レベルで45.6%、高校レベルで33.8%という高い正解率を記録した。 また人間らしい対話能力を評価するベンチマークAlpacaEvalで、MobileLLM-LS-350Mは、GPT-3モデル(text-davinci-001)に対して48.2%のウィン率を達成。3億5,000万パラメータのモデルが、130億パラメータのtext-davinci-001モデルに並ぶ快挙を記録した。 さらに注目されるのが、APIコーリングテストでの記録だ。このテストは、自然言語の指示をプログラミングAPIの呼び出しに変換する能力を評価する。人間の意図を正確に理解する「意図の正確な一致率」で65.3%を記録、APIの構造を正確に生成する「構造の正確な一致率」で48.8%を達成したのだ。これは、20倍の規模を持つLlama2 7B(70億パラメータ)の記録、意図の一致率62.8%、構造の一致率50.9%に並ぶもの。モバイルデバイス搭載のAIで、スマートホームデバイス操作などができるようになる可能性を示す結果といえるだろう。 メタがこうした超小型モデルをどのように活用するのかが気になるところ。WhatsAppやMessengerなどのメッセージングアプリでの活用やクエストVRヘッドセットに導入するといったシナリオも考えられる。モバイルデバイスに搭載可能な超小型モデルは、アップルなども注力する分野。OpenAIもGPT-4o miniをリリースするなど、小型/超小型モデルをめぐる競争はさらに激化していきそうだ。
文:細谷元(Livit)