中国の研究チームが開発「91%の精度」で文脈を読み解く検閲システム――加速する「不自由な言論」
中国の研究チームが、人工知能(AI)を使ってインターネット上の「有害な情報」を「91%以上の精度」で仕分ける検閲システムを開発したと発表した。中国ではこれまで膨大な数の検閲官の手作業によってコンテンツが点検されてきたといわれる。この作業がAI化される方向になり、当局による「サイトのブロック」はいっそう強化されそうだ。
◇言葉の急速な変化にも対応
中国遼寧省の瀋陽(Shenyang)理工大学と中国科学院による研究チームが今月8日発行の専門誌「中国コンピューターシステム」で「インターネットニュースにおけるセンシティブ(不適切)情報を識別する手法に関する研究」と題する論文を発表した。主任研究者の李姝(Li Shu)瀋陽理工大副教授は「オンラインのニュースメディアからセンシティブ情報を識別し、フィルタリング(アクセス制限)するのに特に有用である」と評価している。
香港の有力英字紙サウスチャイナ・モーニング・ポスト(SCMP)によると、中国政府やインターネット企業によるネット上の規制は検閲官の手作業が頼りで、コストが高いうえ効率も悪く、激増するネット情報に対応できない状況が続いた。
近年は検閲の機械化が進められ、キーワード検索によって「70%の精度」で「不適切」情報を検出できるようになった。人間がAIを訓練することでさらに精度は高められ、最近では「80%程度」に引き上げられたそうだ。
SCMPによると、中国語は1万個程度の漢字が使い分けられる「世界でも最も複雑な言語の一つ」とされる。中国語の文章からコンピューターが「これは『不適切』表現」と識別するのは難しく、何の問題もない文章の中で「不適切」表現が拾われて誤った警報が発せられる▽違法な情報が記されていても「不適切」表現さえ使われていなければ見逃されてしまう――などの事例が続出しているという。
だが、今回開発されたシステムは文脈を読み込むことができ、そこに隠された違法な情報を引き出す能力を兼ね備えているため「91%以上」の精度を達成したという。中国のネット上で使用される言葉の急速な変化にも対応できる、とも強調している。
◇検閲官を混乱させる手口
中国インターネット情報センターの報告によると、昨年12月時点の中国のネットユーザー数は9億8900万人で、同年3月より8540万人増加している。インターネット普及率は70.4%に達する。
ネット空間は厳しく管理されており、グーグル(Google)やフェイスブック(Facebook)、ツイッター(Twitter)などはブロックされている。利用可能なサイトでも、当局がタブー視する「天安門事件」「ダライ・ラマ」「法輪功」に関する情報のほか、ポルノや薬物乱用、銃器使用、テロ、共産党・その指導者への批判――などは閲覧できない。
こうした状況であるため、中国のユーザーの中には「不適切」表現を用いず、同音異義語で代用したり、文字と文字の間にハイフンを入れたりして、検閲官を混乱させながらメッセージを発信するケースも少なくなかったようだ。
かつて筆者が北京に駐在していた時、中国の検閲に神経を尖らせる日本の情報関係者から「ベイのおたかさんが、ネクストのジョー、ポキンと来るというのは間近?」と日本語で書かれたメールを受け取ったことがある。「ベイ」「ジョー」はそれぞれ中国語の「北」「週」の発音に近い。「北朝鮮高官が来週、北京に来るという情報は本当か?」という問い合わせだった。こうした暗号めいたメッセージも、新たな検閲システムで解読される可能性があり、すでにその機能は整えられているのかもしれない。