世界最大級の図書館は「AI訓練データの宝庫」だ
1億8000万点にも及ぶ書籍や資料を所蔵する世界最大級の図書館が、人工知能(AI)スタートアップからの熱い注目を浴びている。それらの企業は、大規模言語モデル(LLM)の訓練に使用可能で、訴訟リスクのないコンテンツを探しているからだ。 1800年に合衆国議会の図書室として発足したワシントンDCの米国議会図書館(Library of Congress)には、トーマス・ジェファーソンが書いた手紙や15世紀の手書きの聖書などの、貴重な資料が所蔵されている。毎年何十万人もの訪問者が、この図書館のホールを歩き、ルネサンス様式のドームやモザイクで飾られた空間を鑑賞している。しかし、近年この図書館は、185ペタバイトのデータにアクセスし、最先端のAIモデルを訓練しようとするAI企業の注目を集めている。 米国議会図書館のデジタルアーカイブには、希少でオリジナルかつ権威のある情報が豊富に収蔵されている。それに加え、多様性にも富んでおり、美術や音楽を含むさまざまなジャンルの400以上の言語のコンテンツが収められている。 しかし、特にAI開発者にとってこの図書館が魅力的なのは、これらのコンテンツが著作権で保護されておらず、パブリックドメインに属していることだ。近年は、多くのアーティストや組織がAI企業がデータをスクレイピングするのを防ぐためにデータを保護し始めている一方で、米国議会図書館は、誰にでも利用できるようにデータを無料で提供している。 膨大なデータを活用してAIモデルを訓練してきた企業にとって、図書館は数少ない無料のリソースの一つだ。ただし、米国議会図書館のデータにアクセスする場合は、APIを介して行うことが必要で、AI企業にとって一般的なサイトのスクレイピングは禁止されている。これは、スクレイピングによってアーカイブへのアクセスが遅くなることを防ぐだめだという。 一方で、AIの訓練データを求める企業からのアクセスは、この話の一部分に過ぎない。OpenAIやアマゾン、マイクロソフトのようなハイテク大手は、世界最大級の図書館を彼らの顧客にしようとしている。これらの企業は、自社のAIモデルが米国議会図書館の職員や専門家の資料の検索や、長文ドキュメントの要約といったタスクを手助けできると主張している。 ■AIが持つ「今の時代のバイアス」 しかし、ここにはまだ解決すべき課題が残っている。同図書館のデジタル戦略部長のナタリー・スミスによると、現代のデータで訓練されたAIモデルは、過去の事象を正確に把握できない場合があり、本を持っている人物をスマホを持っていると誤認する場合があるという。「AIは、今日の時代に特有の強いバイアスを持ち、しばしば過去の物事に現代の認識を当てはめてしまう」とスミスは語る。 さらに問題となるのは、AIが図書館のデータを元に誤った情報を生成し、拡散するリスクだ。3月には、米議会調査局が、AIモデルを使って法案の要約を作成するツールを開発中であることを発表したが、テストではモデルが何度もハルシネーション(幻覚)を生成してしまった。また、ある法案では、AIがコロンビア特別区を「州」として記載し、台湾と香港の学生たちが、中国の国民に対する学生ビザを禁止する法案の影響を受けると誤って主張した。 しかし、米議会図書館はAIツールの利用を慎重に検討する一方で、より多くの制約のないデータを提供したいと考えており、今後の数年間でさらなるデジタル化を進める計画だ。 「図書館や連邦機関は、経済を多方面で促進してきたデータの基盤となる組織です。我々がよく言うのは、連邦機関の地理空間データがなければ、ウーバーのようなサービスも生まれなかったということです」とスミスは語った。
Rashi Shrivastava