たった数百人で「反・自民党」のネット世論を形成したSNSユーザーの正体とは?
インターネット上での意見と現実の世論に乖離があると感じたことはないだろうか?実は、X(旧Twitter)で主流になっているように見える意見は、たった0.2%のユーザーによって作られているという。ネット世論がどのように形成されるのか、AIを使って解析した。※本稿は、谷原つかさ『「ネット世論」の社会学 データ分析が解き明かす「偏り」の正体』(NHK出版)の一部を抜粋・編集したものです。 【この記事の画像を見る】 ● AIのディープラーニングによって 膨大なXのポストが解析可能に 2021年の衆議院選挙の際に、私が実際に行った実証研究の結果を解説します。この研究で問うたのは、選挙期間中のX空間における世論はどのようなものであったか、ということです。以下、データ分析の方法を述べます。 まず、X Search API(調査当時はTwitter Search API)を用いて、選挙期間中(選挙公示日の10月19日から投開票日前日の10月30日まで)の投稿のうち、「自民党」または「自民」または「自由民主党」を含む投稿を全て収集しました(合計364万2551ポスト、うちオリジナルポスト57万6376ポスト)。各投稿を、自民党に批判的(反自民党)、ニュートラルまたは態度不明、自民党に賛成的(親自民党)に分類し、数をカウントすることによって、ネット世論の分布を可視化しようというのがねらいです。 しかし、対象となった投稿は、オリジナルポストだけでも57万6376ポストあります。これらを1つひとつ、人間の目で確認して分類していくのは途方もない作業です。そこで、深層学習(ディープラーニング)を用いた教師あり機械学習の方法によって各投稿を分類しました。 具体的な方法については、非常にテクニカルな話になるのでごく簡単に解説しておきます。
教師あり機械学習とは、人間が対象にラベルを付けることによって教師データ(「お手本」となるデータ)を作成し、それをAIが学習することによって、未知の対象があらわれた時にAIが適切にラベル付けできるようにすることをいいます。 今回は、分析対象の投稿から1500件をランダムに抽出し、筆者及び共同研究者が目視で「反自民党」「ニュートラル」「親自民党」のラベルを貼っていきました。これを教師データとしてAIが学習し、残りの50万件以上の投稿に3つのラベルのうちどれかを貼っていくのです。 ● 2021年の衆院選の時のXは 「反自民」の声が過半数を超していた このようにして、AIによって投稿の分類を行った結果は、全投稿の過半数(51.7%)が反自民党でした。次いで多いのは、ニュートラル・態度不明に分類される投稿(31.1%)、親自民党に分類される投稿は一番少ないという結果になりました(17.2%)。 反自民党的な投稿約190万件の拡散の様子について、もう少し詳しく見てみましょう。 この拡散のもととなったオリジナルポスト約29.3万件は、8万6118のアカウントによってなされました。1人が複数のアカウントを運営していることを度外視すると、10月19日から30日までの間に、少なくとも8万6118人の人が自民党に批判的なポストをしたことになります。 図表2-2をご覧ください。この図表は、y軸が拡散数、x軸に拡散数が多いアカウントを上位から順に並べています。