「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)
WebページのスクリーンショットからHTMLコードを生成するAIモデル「Sightseer」をHugging Faceが開発
視覚言語モデル(VLM)の進歩により、画像キャプション生成や質問応答、光学文字認識(OCR)など、様々なタスクでの性能が大きく向上しています。しかし、Webサイトやウェブコンポーネントのスクリーンショットから使用可能なHTMLコードへの変換については、ほとんど探求されていません。 その主な理由は、HTMLコードとそれに対応するスクリーンショットのペアからなる、大規模で高品質なデータセットが存在しないことにあると考えられます。 そこで本研究では、200万組のHTMLコードとスクリーンショットのペアで構成されるオープンソースの合成データセット「WebSight」を開発しました。まず、大規模言語モデル(LLM)を使用して多様なウェブサイトのコンセプトを生成し、さらにコーディングに特化したLLMを用いて高品質なHTMLコードを生成することで、データセットを構築しています。 続いて、この大規模データを用いて、80億のパラメータを持つVLMをファインチューニングし、特化モデル「Sightseer」を開発しました。その結果、ウェブページのスクリーンショットから機能的なHTMLコードへの変換において優れた性能を示しました。さらに、手書きのスケッチからHTMLコードへの変換など、学習していないシナリオにも適応できる汎用性も見られました。
実世界に強いマルチモーダル大規模言語モデル「DeepSeek-VL」
DeepSeekは、オープンソースのマルチモーダル大規模言語モデル(MLLM)であるDeepSeek-VLシリーズ(1.3Bと6.7Bの2種類)を提案しています。 事前学習には、Webサイトのスクリーンショットや論文など、実際によく使われるデータを幅広く集めました。一方で、指示チューニング用のデータは、GPT-4VやGeminiという他のAIを使って集めました。 ビジュアルモジュールは、推論コストを効果的に管理するために固定トークン予算内で高解像度の視覚入力を最適に利用するように設計されています。具体的には、384×384の解像度で大まかな意味抽出を行うエンコーダと、1024×1024の解像度で詳細な視覚情報を捉える高解像度エンコーダを組み合わせたハイブリッドビジョンエンコーダを採用しています。これにより、1024×1024の解像度の画像を576トークンに効率的に圧縮できます。 モデルの反復実験では、大規模化する前に小規模で実験を行いますが、1Bモデルではベンチマークで適切な性能を発揮できません。そこで、評価プロトコルを選択肢の予測から尤度の比較に変更し、事前学習段階で少量の指示チューニングデータを混ぜることで、1Bモデルでも適切な性能を達成できるようにしました。 その結果、DeepSeek-VLは同規模の他のMLLMと比較して、実世界のアプリケーションで優れたユーザー体験を実現し、言語中心のタスクでも堅調な性能を維持しながら、幅広いビジョン言語ベンチマークで最先端または競争力のある性能を達成しています。そして、1.3Bと7Bの2つのバージョンを公開しました。
山下裕毅(Seamless)@TechnoEdge
【関連記事】
- 「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー)
- Apple Car開発プロジェクト中止か。AIに資源集中のためとBloomberg報じる
- GPT-4のコード生成精度を2倍以上向上させる「AlphaCodium」、写真1枚から本人性を維持した画像を量産できる「InstantID」など重要論文5本を解説(生成AIウィークリー)
- アップル、独自生成AI「Apple GPT」のため出版社や報道機関とライセンス交渉中? NY Timesほか報道
- アップル、独自の大規模言語モデル「Apple GPT」を社内でテスト中?製品組み込みは慎重、2024年には発表の可能性(Bloomberg報道)