Getty ImagesがHugging Faceで「最もクリーン」なビジュアルデータを公開、データ品質の向上と期待されるAIモデルの精度アップ
Getty ImagesがHugging Faceで公開したデータセットの概要、そのインパクト
ストックフォト大手のGetty Imagesが、AI開発プラットフォームHugging Faceで高品質な画像データセットを公開し、業界に大きな反響を呼んでいる。この動きは、信頼できるデータパートナーとしての地位を確立し、AIモデルトレーニング用の公式ライセンスコンテンツ利用の促進を目的とするもの。 Getty Imagesのデータ科学・AI/ML部門責任者であるアンドレア・ガリアーノ氏がVentureBeatの取材で語ったとろこでは、このデータセットは、多様性と高品質性に加え、レスポンシブルなデータである点が特徴という。 公開されたサンプルデータセットには、15カテゴリーにわたる3750枚の画像が含まれている。抽象的な背景から、建造環境、ビジネス、概念、教育、ヘルスケア、アイコン、産業、自然、イラスト、旅行まで幅広いジャンルをカバー。これらの画像はGetty Imagesが完全に所有するクリエイティブライブラリから提供されており、商業的に安全で、開発者が予期せぬ法的問題に巻き込まれる心配がないとされる。 またデータセットがランダムに選ばれたものではなく、AIのトレーニング向けに選別され、メタデータが付与されている点も特筆に値する。通常、画像モデルのトレーニング/ファインチューニングでは、データセットのクリーニングに加え、画像のバリエーションを増やすなどの強化作業が発生し、多大な時間とコストを要する。豊富なメタデータにより、これらのプロセスを省くことが可能だ。NSFW(性的)コンテンツなどの不要な要素も排除されている。 ガリアーノ氏は、このデータセットをAIモデルのトレーニングに利用できる最高品質のデータセットであると評価、「最もクリーンで高品質」という表現を用いて、その優位性を強調している。 ただし、このデータセットの利用にあたり、いくつかの制限事項がある点には留意が必要だ。データセットの再配布、データセットに含まれるコンテンツのデジタル複製を作成・再現・生成するモデル/ソフトウェアの開発、Getty Imagesと直接競合する製品/サービスの作成、データセットから派生したバイオメトリック識別子の作成または使用、適用法や規制に違反する方法での使用などが制限される。 Getty Imagesは、この取り組みを通じ、コンテンツの原作者/クリエイターに対する年間報酬支払いの制度も計画しているとのこと。なお同社は、NVIDIAと提携して開発したAI画像生成ツールでも同様のアプローチを採用しているという。