Getty ImagesがHugging Faceで「最もクリーン」なビジュアルデータを公開、データ品質の向上と期待されるAIモデルの精度アップ
Getty Imagesのデータセットの詳細を解説
Getty Imagesが公開したデータセットは、AIプラットフォームのHugging Faceからダウンロードして利用することが可能だ。実際、データセットの中身を確認しつつ、「最もクリーン」な高品質データと呼ばれる理由を探ってみたい。 まず注目すべきは、画像そのものの品質が非常に高いという点だ。プロカメラマンによって撮影された水準の画像であり、露出、フォーカス、色彩などもしっかりと調整されたものとなっている。画像フォーマットはJPGで、画像1つあたり10MB前後のファイルサイズ。一般的な画像データセットには品質のばらつきが見られるが、このデータセットは一貫した画像品質を維持している。 AIモデルの精度に大きな影響を及ぼす画像メタデータの質と量も特筆に値する。 データセットから1つ例をとってみたい。
この画像には、画像の内容、概念、感情、場所など、非常に詳細で構造化されたメタデータが付与されている。たとえば、「交通事故現場での救助活動」という一枚の画像に対し、「交通」「事故」「救助」「安全」「危険」といった概念的なタグから、「オレンジ色」「水平方向の構図」といった視覚的要素、さらには「フラストレーション」「悲しみ」といった感情的要素まで、多岐にわたる情報が含まれているのだ。これは一般的なデータセットでは見られない細かさと言えるだろう。 商業利用の安全性も無視できない特徴だろう。Getty Imagesは著作権管理に定評があり、このデータセットは商業利用を前提に構築されている。一般的なデータセットでは著作権の問題が生じる可能性があるが、このデータセットではその心配はほとんどない。これは、AIを用いた商用サービスの開発において大きな利点となるはずだ。 Getty Imagesを筆頭に、データ品質の向上を目指す動きは今後さらに活発化することが予想される。データ品質の向上にともない、AIの精度がどこまで高まるのかが注目される。
文:細谷元(Livit)