数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Appleなどが研究報告(生成AIクローズアップ)
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 【この記事の他の写真を見る】 今回は、大規模言語モデル(LLM)の数十億のパラメータの中でたった1つのパラメータを削除するだけで、モデルのテキスト生成能力が完全に崩壊することを発見した論文「The Super Weight in Large Language Models」に注目します。 研究チームは、このパラメータを「スーパーウェイト」と名付けました。70億のパラメータを持つMetaのLlama-7Bモデルでは、このスーパーウェイトをゼロにするだけで、モデルのテキスト生成能力が完全に失われ、ゼロショットタスクの精度が大幅に低下しました。 ▲左側では、スーパーウェイトを含む元のLlama-7Bが、妥当な文章を生成しています。右側では、スーパーウェイトを除去した後のLlama-7Bが、意味不明な文章を生成しています パープレキシティ(文章の予測困難さを示す指標)が悪化し、入力プロンプトに対して意味不明の出力が示されました。興味深いことに、このスーパーウェイト以外の上位7000個の大きな値を持つパラメータを削除しても、モデルの性能はほとんど影響を受けませんでした。 スーパーウェイトの特徴として、常に「mlp.down_proj」の重みの中に存在し(1個とは限らない)、必ず初期層に位置しています。 また、このスーパーウェイトは「スーパーアクティベーション」と呼ばれる特別に大きな活性化値を生み出します。このスーパーアクティベーションは、入力プロンプトに関係なく、常に同じ大きさと位置で発生し、モデル全体を通じて維持されます。 さらに、スーパーウェイトの役割について詳しく調べると、それは「the」や「.」「,」などの機能語の確率を抑制する効果があることが分かりました。スーパーウェイトを削除すると、これらの機能語の抑制効果がなくなり、出現確率が何倍に増加してしまいます。 ▲スーパーウェイトの動作メカニズム この発見は、モデルの圧縮や量子化にも重要な示唆を与えています。スーパーウェイトとスーパーアクティベーションを適切に処理することで、単純な量子化手法でも高い性能を維持できる可能性があります。 研究チームは、Llama、OLMo、Mistralなど、一般的に入手可能な様々なLLMモデルのスーパーウェイトの位置をインデックスとして公開しています。
TechnoEdge 山下裕毅(Seamless)
【関連記事】
- “実在する人間”の考えをクローンした自律AIを1000体以上生成。高い精度で世論調査や社会の反応予測など活用へ(生成AIクローズアップ)
- Claude 3.5 Computer Useのゲーム操作はどのレベル? 映像内の混雑シーンでも高速に動く物体を追跡できる「SAMURAI」など生成AI技術5つを解説(生成AIウィークリー)
- 自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー)
- 「生成AI vs. 著名な詩人」どっちの詩が好き? シェイクスピアやディキンソンなどとAI詩を比較(生成AIクローズアップ)
- PDFを生成AIの学習用データに変えるIBM製AI「Docling」、1枚の画像から動く3Dシーン生成する「DimensionX」など生成AI技術5つを解説(生成AIウィークリー)