スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー)
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第32回目は、生成AI最新論文の概要5つを紹介します。 【画像】“本当に”オープンな強力言語モデル「OLMo」
“本当に”オープンな強力言語モデル「OLMo」、アレン人工知能研究所などが開発
言語モデル(LM)は、自然言語処理(NLP)の研究や商業製品に広く利用されています。商業的重要性が高まる中、最も強力なモデルは独自のインタフェースの背後に隠され、そのトレーニングデータやアーキテクチャの重要な詳細が非公開になっていました。これらの詳細を科学的に研究するためには、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠です。 マイクロソフト共同創設者である故ポール・アレン氏によって設立された非営利研究機関「アレン人工知能研究所」(Allen Institute for AI、AI2)と米国の大学による研究チームは、“本当に”オープンな最先端の言語モデルフレームワーク「OLMo」(Open Language Model)を開発しました。 OLMoは、モデルの重みと推論コードのみを公開してきた先行研究の多くとは異なり、トレーニングとモデリングのコード、トレーニング済みモデルの重み(500以上の中間チェックポイントを含む)、トレーニングデータセット(Dolma)、データセット構築ツールキット(Dolmaのツールキット)、さまざまな評価コードなどが提供されています。 また、トレーニングログ、アブレーション、Weights & Biasesログ、指示チューニングとRLHFを用いたOLMoの適応版、そのトレーニングと評価コードなども将来的に公開される予定です。 Dolmaデータセット上で約2.46兆トークンまでトレーニングした「OLMo-7B」を他の公開されている言語モデルと比較しました。これにはLLaMA-7B、LLaMA2-7B、MPT-7B、Pythia-6.9B、Falcon-7B、RPJ-INCITE-7Bなどが含まれます。OLMo-7Bは、評価された9つの主要なタスクのうち2つで他のモデルを上回り、8つのタスクで上位3位以内にランクインしました。
【関連記事】
- スマホ高品質画像生成、わずか0.2秒で。Google「MobileDiffusion」がiPhone 15 Proで達成。重要論文5本を解説(生成AIウィークリー)
- Amazonが服の仮想試着AI「Diffuse to Choose」、画像内の物体分離指示できる「Grounded SAM」、動画の高品質な奥行き推定「Depth Anything」など重要論文6本を解説(生成AIウィークリー)
- GPT-4のコード生成精度を2倍以上向上させる「AlphaCodium」、写真1枚から本人性を維持した画像を量産できる「InstantID」など重要論文5本を解説(生成AIウィークリー)
- Animate Anyoneのオープンソース再現実装版が登場、GPT-4の次に性能が高い商用利用可能な新AIモデル「Mixtral 8x7B」など重要論文を解説(生成AIウィークリー)
- 他言語で感情表現も可能な音声クローンAI「OpenVoice」、対談音声から動き付きリアルアバター生成するAIモデルなど重要論文5本を解説(生成AIウィークリー)