「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説（生成AIウィークリー）

3/18(月) 13:27配信

WebページのスクリーンショットからHTMLコードを生成するAIモデル「Sightseer」をHugging Faceが開発

視覚言語モデル（VLM）の進歩により、画像キャプション生成や質問応答、光学文字認識（OCR）など、様々なタスクでの性能が大きく向上しています。しかし、Webサイトやウェブコンポーネントのスクリーンショットから使用可能なHTMLコードへの変換については、ほとんど探求されていません。その主な理由は、HTMLコードとそれに対応するスクリーンショットのペアからなる、大規模で高品質なデータセットが存在しないことにあると考えられます。そこで本研究では、200万組のHTMLコードとスクリーンショットのペアで構成されるオープンソースの合成データセット「WebSight」を開発しました。まず、大規模言語モデル（LLM）を使用して多様なウェブサイトのコンセプトを生成し、さらにコーディングに特化したLLMを用いて高品質なHTMLコードを生成することで、データセットを構築しています。続いて、この大規模データを用いて、80億のパラメータを持つVLMをファインチューニングし、特化モデル「Sightseer」を開発しました。その結果、ウェブページのスクリーンショットから機能的なHTMLコードへの変換において優れた性能を示しました。さらに、手書きのスケッチからHTMLコードへの変換など、学習していないシナリオにも適応できる汎用性も見られました。

実世界に強いマルチモーダル大規模言語モデル「DeepSeek-VL」

DeepSeekは、オープンソースのマルチモーダル大規模言語モデル（MLLM）であるDeepSeek-VLシリーズ（1.3Bと6.7Bの2種類）を提案しています。事前学習には、Webサイトのスクリーンショットや論文など、実際によく使われるデータを幅広く集めました。一方で、指示チューニング用のデータは、GPT-4VやGeminiという他のAIを使って集めました。ビジュアルモジュールは、推論コストを効果的に管理するために固定トークン予算内で高解像度の視覚入力を最適に利用するように設計されています。具体的には、384×384の解像度で大まかな意味抽出を行うエンコーダと、1024×1024の解像度で詳細な視覚情報を捉える高解像度エンコーダを組み合わせたハイブリッドビジョンエンコーダを採用しています。これにより、1024×1024の解像度の画像を576トークンに効率的に圧縮できます。モデルの反復実験では、大規模化する前に小規模で実験を行いますが、1Bモデルではベンチマークで適切な性能を発揮できません。そこで、評価プロトコルを選択肢の予測から尤度の比較に変更し、事前学習段階で少量の指示チューニングデータを混ぜることで、1Bモデルでも適切な性能を達成できるようにしました。その結果、DeepSeek-VLは同規模の他のMLLMと比較して、実世界のアプリケーションで優れたユーザー体験を実現し、言語中心のタスクでも堅調な性能を維持しながら、幅広いビジョン言語ベンチマークで最先端または競争力のある性能を達成しています。そして、1.3Bと7Bの2つのバージョンを公開しました。

山下裕毅（Seamless）＠TechnoEdge

3/3ページ

Yahoo!ニュース

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説（生成AIウィークリー）

WebページのスクリーンショットからHTMLコードを生成するAIモデル「Sightseer」をHugging Faceが開発

実世界に強いマルチモーダル大規模言語モデル「DeepSeek-VL」

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）