Yahoo!ニュース

普通の人たちは安倍総理の健康問題についてどう捉えていたかデータから探ってみた

鳥海不二夫東京大学大学院工学系研究科教授
(写真:アフロ)

ツイートの拡散と真の世論の違い

前回の記事で分析した通り,安倍総理の健康問題に関しては,健康を心配するツイートと辞任を求めるツイートが多数拡散していました.

しかし,これらのツイートを拡散していた人達には偏りがありました.

ネット世論は,実際の意見よりも極論が多く出ることが分かっています.たとえば,GLOCOM山口真一先生のこちらの記事によると,憲法改正に対する意見を聞くと最も多いのは「賛成とも反対ともいえない」35%だったのに対して,ネットへの書き込みは「非常に賛成である」27%と「非常に反対である」20%が1位2位だそうです.

大規模調査でわかった、ネットに「極論」ばかり出回る本当の理由(https://gendai.ismedia.jp/articles/-/58264?page=3)より
大規模調査でわかった、ネットに「極論」ばかり出回る本当の理由(https://gendai.ismedia.jp/articles/-/58264?page=3)より

つまり,ネットへの書き込みをみて,「賛成と反対の人がそれぞれ多いんだ」と思うのは早計で,実際には極端な意見の人がネットに書き込んでいるだけなのです.

偏りの算出

では,実際にはどのような情報が極端ではない人たちによって拡散されたのでしょうか?

そこで,「偏った人たちによって拡散されたツイートは除いて,それ以外の人たちによって拡散されたツイートを見れば,世間一般の意見が見えるのではないか」という仮定の下,偏っていないツイートだけを抽出してみましょう.

ここで,前回の記事から「偏り」とは,「特定のコミュニティに所属しているアカウントによって拡散されている状態」を指しています.

あらかじめある程度アクティブなアカウントについて,そのリツイート情報からいくつかのコミュニティを抽出します.ジャニーズに関する情報を多数リツイートする「ジャニーズコミュニティ」や,サッカーに関する情報を多数リツイートする「サッカーコミュニティ」など,アカウントの興味に応じたコミュニティを抽出できます.

このコミュニティ情報を使うと,拡散の内訳を調べることができるようになります.

例えば,藤井棋聖が王位を奪取したニュースに関するツイートは将棋コミュニティの人たちが多くリツイートしていることは簡単に予想できます.

各コミュニティには所属するアカウントが複数存在しますが,特定のコミュニティに偏って好まれる情報であれば,リツイートしたアカウントの分布と,コミュニティに所属するアカウントの分布がずれることになります.

この分布のずれをカルバック・ライブラー情報量(KL-Divergence)によって評価し,このずれが大きいほど特定のコミュニティのアカウントに偏ってリツイートされたツイートであるということができます.

もし,リツイートしたアカウントがランダムに決まっていたとするとKL-Divergenceは0になり,特定のコミュニティに偏っていれば偏っているほど大きな値となります.

つまり,KL-Divergenceの小さいツイートは,「特定のコミュニティ」の影響が少ない意見であると期待できます.

ここでは,KL-Divergenceが1.0以下のツイートを偏りが小さいツイートと考え,

・100回以上リツイートされた

・KL-Divergenceが1.0以下

という「偏りの少ないアカウント群によって拡散されたツイート」がどんなものだったのか見てみました.

データとしては,2020年8月17日10:00~20日08:00にツイート,リツイートされたツイートを用いました.

100回以上拡散されたツイートは1,021件ありましたが,そのうちKL-Divergenceが1.0以下だったものは98件でした.

全体の10%・・・政治的なトピックだとどうしても偏りが大きいみたいですね.

偏りがない拡散したツイートの内訳

さて,これら98件のツイートについて,根性マイニング(著者が頑張って判別するデータマイニング手法)を使って

・労働時間に関するツイート

・ニュースや中立的なツイート

・総理批判をしているツイート

・総理批判を批判しているツイート

・リベラル派を批判しているツイート

・ネタツイート

・その他

に分類してみました.

その他ツイート以外のツイートの割合は以下の通りでした.

偏りの少ない拡散ツイートの内訳(著者作成)
偏りの少ない拡散ツイートの内訳(著者作成)

ニュースなどの中立記事と,批判への批判が多いことが分かります.

例えば,

のようなマスメディアによるニュースツイートが多く拡散されており,40%程度でした.

その次に多かった批判の批判派,

のような,批判をいさめるツイートで,こちらが20%強です.

一方で総理批判ツイートはほとんどありませんでした.前回の分析では,総理批判がかなり多くてちょっと驚いたのですが,どうやらあれは偏った人々による拡散だった可能性が高そうです.

偏りなく拡散したツイートはニュースなどの中立的なもので,病気の総理大臣を批判する意見はあまりなかったといえそうです.

偏りがある拡散したツイートの内訳

こうなると,偏りのある方はどうだったのだろうかというのが気になります.

そこで,同様にKL-Divergenceが大きい,つまり偏りが大きい方から98件の拡散したツイートを持ってきて,同様に根性マイニングをやってみました.なお,98件中59件は健康問題とは無関係のツイートでしたので,その分は削除しています.

その結果がこちら.

偏りの多い拡散ツイートの内訳(著者作成)
偏りの多い拡散ツイートの内訳(著者作成)

なんと偏り上位のツイートについては,すべてが総理批判だったことが分かりました.

代表的なツイートだとこの辺でしょうか.

ちなみに,このツイートをリツイートしたアカウントの偏りは2.5であり,リツイートの66%がとある単一のコミュニティに所属するアカウントによって行われていました.ちなみに,このコミュニティに所属するアカウントの数は,コミュニティ所属の確認が取れているアカウント全体の0.8%です.つまり,0.8%のアカウントが所属するコミュニティによって66%のリツイートがなされていたわけです.7600回のリツイートと言っても,これはほとんど特定のコミュニティのアカウントだけがリツイートしていた,といってよいのではないでしょうか.

まとめ

前回の記事でも示した通り,総理批判のツイートはリツイート回数が多くより拡散しているように見えました.

しかし,特定のコミュニティに偏ることなく拡散したツイートは中立的なツイートが多く,総理批判はあまり見られませんでした.

偏りなく拡散したツイート=世間一般の意見

といえるかどうかまでは分かりませんが,少なくとも「一部のコミュニティのアカウントによって拡散したツイート」と「多彩なコミュニティのアカウントによって拡散したツイート」では,後者の方がより世間一般的な意見を表しているのではないかなあと思いますが,どうでしょうか.

自分と同じ意見のツイートがたくさん拡散していると,多数派にいるような気がしてしまうかもしれませんが,実際には自分と同じコミュニティの偏ったアカウントだけの意見かもしれないというのは,いつでも注意しておく必要がありそうです.

日本のツイッタラーは4500万人いるらしいので,たとえ3万回リツイートされたとしても全体のわずか0.067%に過ぎません.

単に拡散が多かったりトレンドに乗ったからと言って,それが必ずしも世論とはいえません.

データに基づいてその内訳をちゃんと確認することが実際に何が起きているのかを理解する上では重要です.

なお,学術的には,証拠が示せていないので,これが正しい結論とはまだまだ全然言えない点はご注意ください.

今回探ってはみたけど,探り当てるまでにはまだまだ深い研究が必要です.

東京大学大学院工学系研究科教授

2004年東京工業大学大学院理工学研究科機械制御システム工学専攻博士課程修了(博士(工学)),2012年より東京大学大学院工学系研究科准教授,2021年より現職.計算社会科学,人工知能技術の社会応用などの研究に従事.計算社会科学会副会長,情報法制研究所理事,人工知能学会編集委員長.人工知能学会,電子情報通信学会,情報処理学会,日本社会情報学会,AAAI各会員.「科学技術への顕著な貢献2018(ナイスステップな研究者)」

鳥海不二夫の最近の記事