ウィキペディアから集めた「擬似的な短歌」の学習データで、AIは短歌をどう詠むのか?
令和の世で、空前のブームとなっている「短歌」。 そしてもはや私たちの日常にも深く入り込んでいる「AI」。 【写真】普通すぎる歌しか詠めなかったAIに、俵万智さんの歌を学習させた驚きの結果 感情を持っていないはずのAIが、どうやって、まるで人のように短歌を詠めるようになるのか。そこで見えてきたAIと人との幸福な関係性とは? ーー〈短歌AI〉の開発に心血を注いできた気鋭の研究者・浦川通氏がわかりやすく解説する。 ※本記事は講談社現代新書の新刊『AIは短歌をどう詠むか』から抜粋・編集したものです。
短歌AIの学習データ
『AIは短歌をどう詠むか』第2章で見た短歌生成は、確かに短歌の「定型」には沿っていました。しかし、そこで表されている内容は、無機質な、説明文のようなものでした。この、ある種「うまくない」生成の結果に「まだAIはこんなものか」と安心する方もいれば、「いやこれではいくらなんでも物足りない」と感じる方もいるでしょう。しかしこれには、明確な理由があります。それは、学習データが「擬似的な短歌」であったということです。 序章で説明したように、言語モデルの学習には「コーパス」と呼ばれる大量のテキストデータが必要です。短歌を学習させるには、コーパスとして大量の短歌が必要になります。しかし、ではその「大量の短歌データ」はいったい、この世界のどこに存在しているでしょうか。 見渡してみれば、短歌はありとあらゆる場所に残されています。例えば、これまでに発刊された歌集や短歌雑誌に収められている歌を集めてきて、それをデータにする、といったやり方があるかもしれません。しかしこれは、人手で短歌を紙(誌)面からデータ化しなければならないという点で、かなり根気、そして時間とお金を要する作業になるでしょう。 OCR(Optical Character Recognition/光学的文字認識)と呼ばれる、書物の電子化を自動で行う技術もありますが、毎回100パーセントの精度で文字が認識できるというわけでもなく、ここでも人手が必要になってきます。そこで、インターネットに載せられている短歌を自動で集める、という方法が考えられます。これは、プログラムを書きさえすれば自動かつ大量に短歌を収集することが可能ですから、現実的な方法と言えます。 とはいえ、こうして収集できたとしても、著作権やモラルの問題があります。 無作為にまた作者に許可を取ることなく、人間がつくった短歌を収集して、言語モデルの学習に利用するという行為は、現行の法律や研究という範囲では許容されるかもしれません。しかし、実際の応用を考えると、たとえば「学習データとほぼ同じ短歌が生成された時にどうする?」「許可なく自分の短歌が学習に使われていたらどうする?」といった、創作における著作権やモラルの点で、課題があり、また躊躇するところがあります。