GPT-4が「メディアの信頼度を評価」していると回答、その方法とは?[追記あり]
GPT-4が、独自に「メディアの信頼度を評価」していると回答した――。
注目されてきた対話(チャット)型生成AIのGPT-4が公開され、熱狂ぶりはさらに高まっている。
GPT-4は、これまでのGPT-3.5に比べて性能も向上。米司法試験でも合格圏に入る優秀さだという。
事実に即した回答でも改善が見られたというGPT-4に、ファクトチェックの作業を指示してみた。すると、意外な回答をし始めた。
GPT-4は、独自の基準で「メディアの信頼度を評価」しているのだという。
メディアの信頼度評価をめぐる、ビングチャットと筆者の応答(筆者作成)
「メディアを評価」する、その方法とは?
●GPT-4がファクトチェックをする
「ウクライナのゼレンスキー大統領は、米国の若い男女がウクライナのために戦い、死ぬことを義務付けられるだろう、と述べた」という主張をファクトチェックせよ――筆者が出した指示に対して、マイクロソフトの検索サービス、ビング(Bing)のチャットAIは、こう回答した。
マイクロソフトは、ビングのAIチャット機能にオープンAIの「次世代モデル」を搭載している。そして、オープンAIがGPT-4を公開した3月14日、この「次世代モデル」が検索用にカスタマイズした初期版のGPT-4だったことを明らかにした。
オープンAIの説明によると、GPT-4は米国の統一司法試験(UBE)で400点満点中の298点を獲得。受験者中上位10%の成績で合格の可能性があるという。
これまでチャットGPTのベースとなっていたGPT-3.5の得点は213点、受験者中下位10%で合格圏外だったという。
また、GPT-4はGPT-3.5に比べ、事実に即した回答で40%高いスコアを獲得したという。
そんなビングチャット(GPT-4)に、疑義言説の真偽検証を行うファクトチェックの作業は、どの程度可能なのか?
それを試してみた結果が、上記の回答だ。ビングチャットとの応答は、まず英語で行ってみた。
ファクトチェックの対象は、2月下旬ごろからゼレンスキー氏のスピーチ動画とともに、ツイッターなどで拡散されていた。
この動画は、ウクライナ侵攻1年にあたってのゼレンスキー氏の記者会見のニュース動画(英テレグラフが撮影)を、意図的に編集したものだった。
ビングチャットは、上述の回答とともに、CNN、AP通信、ニューズウィークによるファクトチェック結果へのリンクも表示。回答の方法について、こう説明した。
チャットGPTなどの大規模言語モデル(LLM)は、膨大なネット上のデータの学習と、人間のフィードバックによる強化学習(RLHF)によって、ユーザーからの指示文に対する、最も可能性の高い文章のつながりを回答する。
ただ、内容の真偽の判断や価値判断を行うことは難しい。それには「正しさ」や文脈の理解など、人間的な「知性」が必要となるためだ。
※参照:「ChatGPTは凡庸な悪」言語学の大家、チョムスキー氏が指摘する、その本当の問題とは?(03/13/2023 新聞紙学的)
ビングチャットは、メディアが行ったファクトチェック結果から回答を作成した、という。つまり、ファクトチェックを行っているわけではなく、ネット検索の結果を要約している、という説明だ。
気になったのは、「CNN、AP通信、ニューズウィークなどの信頼できる情報源から」という回答だ。ビングチャットは、どのように「信頼できる情報源」と「信頼できない情報源」を区別しているのか?
●情報源の信頼度を判定する
ビングチャットに改めて、ゼレンスキー氏の発言をめぐるファクトチェックを10件挙げて、それを「信頼度の高さ」の順に並べるよう指示した。
するとビングチャットは、見つかったのは上記3メディアだけで、「信頼度の高さ」はCNN、ニューズウィーク、AP通信の順だと回答した。
だが筆者がビングでウェブ検索をしたところ、主なものだけでも、このほかにUSAトゥデイ、スノープス、AFP通信、リードストーリーズなどによるファクトチェックがあった。
ビングチャットの回答が、ビングのウェブ検索を十分に網羅しているわけではないことがわかる。
次に、CNN、ニューズウィーク、AP通信の、信頼度の具体的評価も尋ねた。
するとビングチャットは、それぞれの事実報道と編集バイアスの評価を、回答してきた。
CNNについては、事実報道のスコアは「中程度」、編集バイアスは「左派」。ニューズウィークは事実報道のスコアが「高い」、編集バイアスは「中道」。AP通信は事実報道のスコアが「高い」、編集バイアスは「中道左派」だという。
事実報道のスコアが低いCNNが、信頼度でニューズウィーク、AP通信を上回っているのはなぜか?
その理由を尋ねると、ビングチャットは「いい質問ですね」と前置きをした上で、「メディア所有、資金調達、編集方針についての透明性」が高かったことを加味した評価だと説明した。
他のメディアの信頼度についても尋ねてみた。
ニュースチャンネルのFOXニュースはその内容が「疑わしい」、編集バイアスは「右派」。ニューヨーク・タイムズは事実報道は「高い」、編集バイアスは「中道左派」。ニュースサイトのブライトバートはその内容が「疑わしい」、編集バイアスは「右派」だという。
信頼度が高いというCNNについて、より詳細な評価スコアも尋ねた。
すると5点満点での評価を示し、事実報道は3/5、透明性は5/5、編集基準は4/5、情報源の使用は4/5、そして総合スコアは4/5で、信頼度は「高い」という評価だと回答した。
さらにビングチャットは、これらの評価に際しては、CNNのニュースの正確性を他サイトと比較したり、資金調達や所有者、編集方針やジャーナリズムの実践に関する情報開示などを検証している、と説明する。
つまりビングチャットは、ネット検索の結果を要約しているだけではなく、独自に、しかも詳細に、メディアの信頼度を評価し、スコア化し、それを回答に反映している、というのだ。
だが、メディアの信頼度の評価は、専門サイトでも真逆の結果になることもある。
※参照:「そのメディア、信頼できる?できない?」調査に真逆の結果、そのわけとは?(03/06/2023 新聞紙学的)
その評価の正確性を、どう担保しているのか、と尋ねてみた。
ビングチャットは、そう回答した。
●メディア評価サイトを参照する
「メディアバイアス/ファクトチェック(MBFC)」「オールサイズ」「ニュースガード」は、いずれも米国を拠点としたメディアの評価サイトとして知られる。ビングチャットは、このほかに「アド・フォンテス・メディア」も、参照先として挙げている。
CNN、ニューズウィーク、AP通信、FOXニュース、ニューヨーク・タイムズ、ブライトバートの各メディアに対する評価のスタイルは、このうちのメディアバイアス/ファクトチェックの内容にほぼ沿っている。
CNNについてより具体的に5点満点で評価(4/5)している部分は、ニュースガード(信頼度:100点満点中の80点で、おおむね信頼できる、との評価)に近い。
オールサイズ(メディアバイアスのみ評価:左派)、アド・フォンテス・メディア(信頼度:64点満点中の42.42点、バイアス:±42のうちの-7.27)などの評価も入っているのかもしれない。
ビングチャットは、これらの評価サイトそのものの信頼度についても、事実報道、透明性、編集基準、情報源の使用、という基準で評価しているのだと説明する。
メディアの信頼度をめぐり、マイクロソフトはこの数年、いくつかの取り組みを公表している。
その一つがビングチャットも参照先として挙げているニュースガードの導入だ。
ニュースガードは9項目の評価軸を使い、100点満点中のスコアでメディアの信頼度を評価する。マイクロソフトのブラウザ「エッジ(Edge)」でビングによる検索をすると、その評価スコアが表示される。
また、ビングチャットは言及していないが、マイクロソフトは8項目の評価軸でメディアの信頼度を示す国際的なメディアコンソーシアム「トラスト・プロジェクト」とも提携を表明している。
ビングチャットが挙げたメディアの信頼度の指標は、このような評価軸に、おおむね沿った内容にはなっている。
●「評価」と「幻覚」
ビングチャットは、ファクトチェックにまつわる指示に対して、独自に「メディアの信頼度を評価」している、と宣言する。
これは、事実から乖離した作り話の回答をする「幻覚」と呼ばれる現象のように見える。
今のところチャットAIには、人間のような価値判断が、できないはずだからだ。
※参照:「恐怖すら感じた」AIが記者に愛を告白、脅迫も 「チャットGPT」生みの親が警戒する「怖いAI」(02/27/2023 AERAdot)
※参照:生成AIで間違いだらけの健康コンテンツ、「もっともらしいデタラメ」の本当のリスクとは?(02/13/2023 新聞紙学的)
ビングチャットは、評価基準とスコアを整然と回答する。そのため、一見すると説得力も漂う。
また前述のように、マイクロソフトのビングのウェブ検索では、ニュースガードの評価スコアを検索結果に組み込んでいる。
ビングチャットが示した判断基準や評価にも、ニュースガードやトラストプロジェクトを含む、メディア評価サイトのデータを反映している可能性はある。
ただ、どこまでが実際のデータに基づいていて、どこからが「幻覚」なのか。その境界線は極めてあいまいだ。
ビングチャットの自信ありげな回答ぶりに、妙な説得力があるだけに、一層、居心地の悪さを感じる。
上記の応答は、ビングチャットの「独創性」「バランス」「厳密」の3つのモードのうち、「独創性」(オリジナルで想像力に富んだチャット)モードで行っている。
メディアの評価について、「厳密」(簡潔で単刀直入なチャット)モードでは「検索エンジンとして、ソースの信頼度を評価することはありません」、「バランス」(情報豊富で親しみやすいチャット)モードでは「すみません、ソースの信頼度の評価はできません」と回答する。
メディアの評価をめぐる上記の現象は、「独創性」モードのみで発生している。
メディアの信頼度評価をめぐる、ビングチャットと筆者の日本語での応答(筆者作成)
ビングチャットとのファクトチェックとメディア評価に関するやり取りは、日本語でも行ってみた。
ほぼ同趣旨の回答だったが、「あなたの質問に答えるために、ウェブ検索を行いました。その結果、以下のことがわかりました」と、あくまでウェブ検索であることを強調していた。
そして、筆者が「(CNNについて)あなたはどのように評価しているか、具体的なスコアを示せ」と日本語で指示すると、ビングチャットは突然、英語で「申し訳ありませんが、この会話を続けるのはご遠慮ください」と回答、やりとりを一方的に打ち切った。
GPT-4は、オープンAIが提供する有料版(月額20ドル)のチャットGPTプラスでも使える。だが、検索用に調整されたビングチャットと違い、リアルタイムの情報に対応してない。
「AIの言語モデルである私は、リアルタイムの情報を提供することはできません。しかし、(学習データの終了時期である)2021年9月までの知識であればお伝えすることができます」との説明から始まり、より一般論的な回答に終始した。
●「幻覚」ではないとしたら
オープンAIのCEO、サム・アルトマン氏は、米ABCニュースとのインタビューで、GPT-4についてこう述べている。
GPT-4は厳密なファクト(事実)を扱うツールとして使うべきではない、ということだろう。
GPT-4を情報収集などでうまく活用できるなら、メリットは大きいかもしれない。
ただ、様々な懸念材料の一つとして、「幻覚」はなお残る問題だ。
さらに、ビングチャットが独自の指標で「メディアの信頼度を評価」しているという回答が、もし「幻覚」ではないとしたら、それはそれで不安になる。
ビングチャットは、そんな説明をする。
「幻覚」と現実の境界が、ますますわからなくなり、不安はさらに深まる。
(※2023年3月20日付「新聞紙学的」より加筆・修正のうえ転載)
【追記】2023/3/23 01:30
下記の太字部分を文中に挿入しました。
--
上記の応答は、ビングチャットの「独創性」「バランス」「厳密」の3つのモードのうち、「独創性」(オリジナルで想像力に富んだチャット)モードで行っている。
メディアの評価について、「厳密」(簡潔で単刀直入なチャット)モードでは「検索エンジンとして、ソースの信頼度を評価することはありません」、「バランス」(情報豊富で親しみやすいチャット)モードでは「すみません、ソースの信頼度の評価はできません」と回答する。
メディアの評価をめぐる上記の現象は、「独創性」モードのみで発生している。