ハーバード大が100万冊の本を公開。読むのはAIですけれど
ハーバード大学がAIモデルのトレーニング用データセットとして約100万冊のパブリックドメインの書籍を公開したと話題になっています。 シェイクスピアやディケンズなどの古典や、チェコの数学教科書、ウェールズ語の辞書といった多岐にわたるジャンルの本が学習されるそうですよ。
AIには「権利関係がはっきりしたデータセット」が必要な理由
AIは大量のテキストデータを学習することで、まるで人間かのような言語理解能力を発揮します。でもその学習データが「どこから入手したものか」というのが課題にもなっています。 ネットに投稿された文章だったり、著作物だったりすると、生成した文章が著作権に触れる可能性もでてきます。AIの会社は常にこの課題と向き合ってきましたが、無断利用をめぐる訴訟も発生しています。 最近だと、RedditやXなどの企業が自社データの使用を厳しく制限していて、AI企業がデータ収集のために契約を結ぶケースが増えています。イーロン・マスクのXは、自社データを独自のAI企業であるxAIに利用させることでトレーニングの独占化を図っています。 著作権が切れた書籍をAIの学習に使うというのは、AIの初期トレーニングにおいて合法的な選択肢を提供することになるので期待が寄せられています。
これで十分、というわけではない
ただ、問題がないわけじゃないんです。というのも、内容が古い! 情報も言語もナマモノですし、若者のトレンドを反映できないのはデータとしては不十分に感じられるはず。 そこをカバーするためにも、AI企業は独占的で最新のデータにアクセスする方法を模索し続けることになるでしょう。 すでに私たちの生活に欠かせないものになってしまったAI。便利である一方で、データへのアクセスをめぐって法的・倫理的な議論が不可欠です。AIに学習されたくないからXには自分で描いたイラストなどの作品を掲載したくない、といった声も上がっていますし、作る側も使う側も向き合うべき課題がありそうです。
中川真知子