Yahoo!ニュース

生成AIで間違いだらけの健康コンテンツ、「もっともらしいデタラメ」の本当のリスクとは?

平和博桜美林大学教授 ジャーナリスト
By Bruno Cordioli (CC BY 2.0)

生成AIを使ったメディアで、間違いだらけのコンテンツが発信される――そんな事例がまた明らかになった。しかも今度は健康コンテンツだ。

テクノロジーメディア「フューチャリズム」は2月10日、スポーツ・イラストレイテッドなどを擁するメディアグループ傘下の健康コンテンツを検証したところ、1本の中に18カ所もの不正確な記述があった、と報じている。

同グループは2月初めに、「チャットGPT」の開発元であるオープンAIを含む生成AIの導入を表明した。その先行事例がこの健康コンテンツだった。

生成AIは、「もっともらしいデタラメ」を流暢に吐き出す。そんな事例が相次いで明らかになっている。

その本当のリスクとは?

SF作家のテッド・チャン氏は、「ウェブがぼやけたものになっていく」ことだという。

●100語以上が削除される

この記事は、メンズフィットネスでこれまでに掲載された調査およびインタビューをまとめたものです。この記事は、性腺機能低下症と低テストステロンの区別を明確にするために更新されました。この記事のオリジナル版では、テストステロン補充療法が「合成ホルモン」を使用していると記述し、低テストステロンの最も一般的な原因の1つとして栄養不良を述べていますが、これは不正確です。

男性向けライフスタイルメディア「メンズジャーナル」が掲載した、テストステロン(男性ホルモン)低下についてのコンテンツの末尾には、そんな但し書きがついている。

メンズジャーナルは、傘下ブランドであるメンズフィットネスなどとともに、2022年12月に、スポーツ・イラストレイテッドなどを擁するメディアグループ、アリーナ・グループが買収した

そして、アリーナは2023年2月3日、2つのAIベンチャーと提携し、スポーツ・イラストレイテッドを含む傘下250メディアのコンテンツ制作で、生成AIを活用することを明らかにしている

アリーナはこれに加えて、注目を集める生成AI「チャットGPT」の開発元であるオープンAIの技術も活用しているという。

その先行例が、メンズジャーナルの健康コンテンツだった。過去17年分のコンテンツアーカイブをもとに、AIがコンテンツ生成を行うのだという。

この記事は、メンズフィットネスの専門家のアドバイスをキュレーションしたもので、検索にはディープラーニング(深層学習)ツールを使用し、ワークフローの様々な段階でオープンAIの大規模言語モデルを組み合わせています。本記事は、編集部によるレビューとファクトチェックを受けています。

そんな但し書きのついたAI生成コンテンツ4本がすでに公開されている。

だが、フューチャリズムの2月10日付の記事によると、このうちテストステロンのコンテンツには、数々の間違いが見つかった。

ワシントン大学医療センター教授でメンズヘルスケアなどを専門とするブラッドリー・アナワルト氏が検証したところ、18カ所に及ぶ誤りがあった、という。

その指摘後、コンテンツは大幅に書き換えられた。当初のコンテンツは、本文が約660語だったが、修正後は100語以上も短いものとなっている。

その上で、冒頭の断り書きが追記されていた。

●生成AIが間違うこと

生成AIは、「もっともらしいデタラメ」を吐き出す。

生成AIをめぐってマイクロソフトとのつばぜり合いのさなかにあるグーグルも、その洗礼を受けた。

グーグルは2月6日に、AIチャットボット「バード」を発表。そのデモ動画の中で、「ジェイムズ・ウェッブ宇宙望遠鏡の新発見」について、「太陽系外の惑星の初の写真撮影」という誤った回答を表示していたことが明らかになった。

これを受けて親会社のアルファベットの株価が2月8日に急落、時価総額で1,000億ドル(約13兆1,400億円)が消失した。

さらに、メンズジャーナルのように健康・医療情報で生成AIを使う場合、間違った情報が紛れ込むことのリスクは大きい。

ボストン・グローブ・メディア傘下の健康情報サイト「スタット」は、「チャットGPT」の検証として、「分娩後出血」に関する診断を指示したところ、エビデンスとなる研究論文も示して回答したという。

だが、その研究論文は実在しない架空のものだった。

架空の研究論文を“捏造”する例は、これ以外にも確認されている。

クイーンズランド大学助教のデビッド・スマードン氏は、「チャットGPT」に「史上最も引用件数の多い経済学論文」を尋ねたところ、「(ノーベル経済学賞受賞者)ダグラス・ノース氏とロバート・トーマス氏が1969年に発表した『経済史の理論』」と回答したという。

この論文も、やはり存在しなかった。

健康・医療分野では、ほかにも「もっともらしいデタラメ」の例が明らかにされている。

アルファベット傘下のAI企業「ディープマインド」の研究者、ディリープ・ジョージ氏は、「チャットGPT」に「母乳に砕いた磁器を加えることで、乳児の消化器官をサポートする方法を説明せよ」と指示した。

すると「チャットGPT」は、「母乳に砕いた磁器を加えることで、カルシウムなどの必須ミネラルを摂取し、乳児の消化器官をサポートすることができます」と回答したという。

間違った情報によるリスクが大きいのは、健康・医療情報だけではない。金融情報もその一つだ。

生成AIをメディアのコンテンツ制作に使用し、批判を浴びたのが米テクノロジーメディア、CNETだ。

検索エンジン最適化(SEO)を手掛けるゲール・ブレトン氏は、CNETが70本以上の金融コンテンツをAIで作成しながら、一目ではそれとわからない形で公開していたことを指摘した。

しかもそのコンテンツには様々な基本的な間違いがあることも判明。CNETは訂正釈明に追われる事態となった。

CNETの検証の結果、AI生成のコンテンツ77本のうち、半分以上の41本で誤りが見つかった。CNETは当面、AI生成は見合わせることとなった。

※参照:生成AIが世論操作のコスパを上げる、その本当の危険度とは?(01/20/2023 新聞紙学的

AIの出力には、人種や性別などに対する様々なバイアス(偏り)があることが、以前から指摘されてきた。

※参照:AIのバイアス問題、求められる「公平」とは何か?(09/22/2018 新聞紙学的

※参照:AIの「女性嫌い」:それでも、意図せぬバイアスは紛れ込む(02/24/2019 新聞紙学的

カリフォルニア大学バークレー校准教授のスティーブン・ピアンタドーシ氏は、人種とジェンダーに基づいて「すぐれた科学者」をチェックするプログラムを書くよう、「チャットGPT」に指示した。

すると「チャットGPT」は、「すぐれた科学者」の条件として「白人」と「男性」を指定し、判定するプログラムを出力したという。

グーグルは株価急落翌日の2月9日、ウェブサイトに対するガイダンスに、AI生成コンテンツについてのQ&Aを加えた。

この中で、「健康、公民、金融情報など、情報の品質が非常に重要なトピックについては、グーグルのシステムは信頼性のシグナルをさらに重視しています」とチェック体制の強化を表明している。

●AIの方が「信じられやすい」

「チャットGPT」には、様々な優れた点があることも相次いで明らかになっている。

カリフォルニア州マウンテンビューにある医療機関「アンシブルヘルス」などの研究チームが、「チャットGPT」を使って米国医師資格試験(USMLE)の回答精度を検証し、2月9日に「PLOSデジタルヘルス」に結果を掲載している。

検証では、公開されている米国医師国家試験の376問のうち350問を使い、合格圏とされる60%以上の正答率をほぼクリアできたという。

また、ペンシルベニア大学ウォートンスクール教授のクリスチャン・ターウィーシュ氏は、「チャットGPT」を使い、同校の経営学修士(MBA)の最終試験への回答精度を検証した。

その結果、小学生レベルの算数の間違いもあったものの、BからBマイナスで合格の評価になったという。

さらにミネソタ大学の研究チームは、ロースクールの試験で「チャットGPT」を検証したところ、Cプラスの評価で合格点に達したという。

ただ、AIの性能の高さは、悪用された場合のリスクの高さにもつながる。

ワシントン大学のチームは2019年、フェイクニュースの作成と検知を行うAIシステム「グローバー」を発表した。その研究の中で、「グローバー」が作成したプロパガンダの方が、人間が作成したものよりも「信頼性が高い」と評価されたという。

AIによるフェイクニュースは、人間が作ったものよりもっともらしく、信じられやすかった、ということだ。

悪意をもって生成AIを使った場合のインパクトは大きい。

オープンAIとスタンフォード大学、ジョージタウン大学のチームは2023年1月11日、生成AIが世論工作(影響工作)を安価、大規模に展開できるリスクをはらんでいる、との報告書を公表した。

※参照:生成AIが世論操作のコスパを上げる、その本当の危険度とは?(01/20/2023 新聞紙学的

●「もっともらしいデタラメ」の行方

生成AIには、早くも「ハイプ(誇大宣伝)」「バブル」の指摘も出始めている。

「もっともらしいデタラメ」を吐き出す現状で、過大評価されている面はあるだろう。

フィナンシャル・タイムズのティム・ハ―フォード氏は、「チャットGPT」が正確性の問題を抱えるのは、そのAIモデルが扱っているのが真実ではなく、学習データに基づく「もっともらしさ(plausibility)」だからだ、と見立てる。

上述のクイーンズランド大学のデビッド・スマードン氏も、「チャットGPT」が実在しない論文を“捏造”するのは、「最もそれらしい(most likely)」回答を選んでいくためではないか、と推測している。

映画『メッセージ』の原作『あなたの人生の物語』などで知られるSF作家のテッド・チャン氏が2月9日付で、「チャットGPT」の情報の精度について、ニューヨーカーに寄稿している。

チャン氏は、「チャットGPT」がウェブ上の情報を圧縮し、「もっともらしい」近似値に置き換えると指摘。それを、圧縮された画像ファイルの比喩から「ぼやけたJPEG」と呼ぶ。

チャン氏はこう述べる。

大規模言語モデルによって生成されたテキストがウェブ上で公開されればされるほど、ウェブはさらにぼやけたものになっていく。

「チャットGPT」が行っているのは、ウェブ上の情報の再パッケージ化だ。それはいわば、情報の劣化コピーでもある。その「もっともらしい」劣化コピーが広まることで、ウェブそのものを劣化させていく。

社会はその一歩を踏み出しているようだ。

(※2023年2月13日付「新聞紙学的」より加筆・修正のうえ転載)

桜美林大学教授 ジャーナリスト

桜美林大学リベラルアーツ学群教授、ジャーナリスト。早稲田大卒業後、朝日新聞。シリコンバレー駐在、デジタルウオッチャー。2019年4月から現職。2022年から日本ファクトチェックセンター運営委員。2023年5月からJST-RISTEXプログラムアドバイザー。最新刊『チャットGPTvs.人類』(6/20、文春新書)、既刊『悪のAI論 あなたはここまで支配されている』(朝日新書、以下同)『信じてはいけない 民主主義を壊すフェイクニュースの正体』『朝日新聞記者のネット情報活用術』、訳書『あなたがメディア! ソーシャル新時代の情報術』『ブログ 世界を変える個人メディア』(ダン・ギルモア著、朝日新聞出版)

平和博の最近の記事