GAFAがこぞってユーザーの会話を“盗み聞き”、データ保護当局が動く

(写真:ロイター/アフロ)

GAFAがそろってユーザーの会話を“盗み聞き”していた――。

ユーザーの明確な同意もないまま、スマートスピーカーなどから取得した大量の音声ファイルを外部委託業者などがチェックしていた、という実態が、次々と明らかになっている。

アマゾンに始まり、グーグルアップルマイクロソフト、そして新たにフェイスブックもこれを認めた。

その目的はいずれも、AIの音声認識の精度を高めるためのチェック作業だった、という。

そのために外部業者に発注し、グローバル規模の担当者が、ユーザーがAIに話していた音声や、何かのはずみで録音された家庭内の会話などを聞き取り、それを書き起こしたり、チェックをしたりしていたのだという。

この問題ではすでにドイツのデータ保護当局がグーグルに対して調査を開始。アイルランドやルクセンブルクのデータ保護当局も、情報収集を始めているという。

さらに米国では、スマートスピーカーなどを対象にしたプライバシー規制法案の提出や、アップルを相手取った集団訴訟も起こされている。

米国では、GAFAの独占禁止法違反をめぐって司法省が調査に動き出したというタイミングでもある。大西洋をはさんだGAFAをめぐる動きが、加速している。

●フェイスブックが音声チャットを書き起こす

フェイスブックによる音声チャットのチェックを報じたのはブルームバーグだ

13日付の報道によると、問題となったのはフェイスブックが提供する「メッセンジャー」のチャットサービス。

「メッセンジャー」では文字によるチャットに加えて、音声ファイルをアップロードすることによるチャット機能も使うことができる。

ブルームバーグが複数の関係者の話として伝えるところによると、この音声ファイルの聞き取りをし、書き起こしをする作業を、ユーザーの同意を得ることなく外部業者に委託し、数百人規模の人員で行わせていたのだという。

その目的は、AIによる音声認識精度の向上だ。

「メッセンジャー」の音声チャットでは、音声ファイルを自動的に文字化して表示する機能もある(※日本語には対応していなかったようだ)。

その際に使われるAIの音声認識の出力結果が正しいかどうか。その答え合わせのための「正解」をつくる作業を、人間にさせていた、という。音声ファイルはユーザーが特定できないよう、匿名化されていた、という。

フェイスブックCEOのマーク・ザッカーバーグ氏は、2018年4月10日、8700万人分のユーザーデータが不正流用された「ケンブリッジ・アナリティカ問題」で米上院で証言に立った際、ゲイリー・ピーターズ議員(民主)から「モバイル端末の音声をユーザーデータ取得に使っているのか」との質問を受けている。

この時のザッカーバーグ氏の回答はこうだった

議員がおっしゃったのは、巷に流布する陰謀論です。我々がユーザーのマイクと通じて内容を聞き取り、それを広告に使っている、という。そんなことはしていません。

そして、フェイスブックはその2カ月後の補足説明文書では、こう説明している

フェイスブックは、ユーザーがアプリ上で許諾し、音声が必要な特定の機能(音声メッセージ機能など)を使用する場合にのみ、ユーザー端末のマイクにアクセスします。

だが、人間がその音声をチェックすることについては、明確な説明はされていなかった。

ブルームバーグの取材に対し、フェイスブックは「アップルやグーグルと同様に、我々も人間による音声のチェックは1週間以上前に中止した」と回答している。

フェイスブックが他社の社名を出しているのは、同様の問題が今春以降、相次いで指摘されてきたことを受けたものだ。

そして、その騒動の中でも、フェイスブックはごく最近まで同種の行為を続けていた、と認める発言でもある。

●騒動の発端はアマゾン

騒動の発端となったのはアマゾンだ。

アマゾンの問題も、最初に報じたのはブルームバーグだった。

4月10日付のブルームバーグの報道によると、アマゾンはスマートスピーカー「エコー」で使われているAI「アレクサ」の音声認識精度を上げるため、外部業者を含む数千人規模のスタッフを、ボストン、コスタリカ、インド、ルーマニアなどグローバルに配置。1日9時間のシフト勤務を組み、1人あたり1000本の音声ファイルから「テイラー・スウィフト」など特定の言葉を抜き出し、ラベル付けの作業を行っていたという。

「アレクサ」では、ユーザーの音声をAIが認識し、文字列に変換。この文字列から自然言語処理でコマンドを認識し、音楽をかけたり、ニュースを読み上げるといった動作をする。

この音声から文字列、コマンドへとつながる精度を上げるための、作業の一環のようだ。

なかには犯罪の可能性を伺わせる音声もあったという。アマゾンではその場合の対処法も取り決めていると説明するが、ルーマニアでこのケースに遭遇した関係者は、アマゾンは介入はしない、と告げられたという。

アマゾンのケースでも、音声は個人が特定されないよう匿名化されていた、という。

アマゾンはFAQの中で、「アレクサの音声認識と自然言語処理の学習のためにあなたのリクエストを利用します」と述べているが、具体的に、音声を人間のスタッフがチェックしていることについては、説明はされていなかった。

また、ブルームバーグはこの時、同様のチェックはアップル、グーグルでも行われている、と指摘していた。

●グーグルの音声ファイル1000件を入手する

7月10日、ベルギーの公共放送「VRT」は、グーグルがスマートスピーカー「グーグルホーム」と音声アシスタント「グーグルアシスタント」を通じて取得し、内容チェックに使用している音声ファイル1000本を入手し、その実態を明らかにした。

「VRT」は、グーグルが外部委託先の関係者を通じて、1000本の音声ファイルを入手したという。

グーグルでは、グローバルに数千人規模で、この音声ファイルにアクセスすることができるようだ。

これらは匿名化されているが、その音声ファイルの内容などから本人を特定することは可能で、「VRT」は実際に特定した当人たちに取材に出向いている。

さらに、「VRT」が確認した1000件の音声ファイルのうち、153件はベッドルームでの会話など、センシティブな内容が含まれていた、という。

また、関係者の話では、女性が虐待を受けているような音声もあったが、そのようなケースでの具体的な対処法は示されていなかった、という。

「VRT」の取材に対し、グーグルはこれが全体の0.2%の音声ファイルに対してのみ行われており、ファイルは匿名化されているとし、こう説明している。

グーグルアシスタントのようなサービスを支えるテクノロジーの開発には、このような作業は非常に重要です。

また、「VRT」の報道の翌日、公式ブログでこの音声ファイル流出が同社のポリシー違反に当たるとし、調査チームが究明にあたると表明。合わせて、音声ファイルのチェックの必要性を、改めて説明している。

●アップルでは「病状」「薬物取引」「セックス」

7月26日、英ガーディアンも関係者の話として、アップルにおける音声ファイルのチェックの実態を報じている。

アップルの音声アシスタントAI「シリ」が聞き取った音声の内容を、やはり人間のスタッフがチェックし、動作レベルを評価していた、という。アップルの説明では、このチェック作業に使われていたのは全体の1%以下で、音声は仮名化されていた、という。

ガーディアンに問題を告発した外部業者の関係者によれば、音声の中には、医師と患者の病状に関する会話や薬物取引の現場、セックスの模様など、意図せずシリが起動していたようなセンシティブな内容も含まれていた、という。

だが、その内容に関する報告の手順はなかったようだ。

ガーディアンの取材に対し、アップルはこう説明している。

シリに対するリクエストのごく一部を、シリの機能改善と聞き取りの向上のために分析していました。ユーザーのリクエストは、そのユーザーのアップルIDとは紐づいていません。

アップルは、iOSに関するセキュリティ文書の中で、音声ファイルは半年間保存されて、音声認識機能に利用されるとし、その後は個人特定データを削除し、2年間はシリの機能改善に使われる、などとしている。

●マイクロソフト「スカイプ」でも

マイクロソフトでも、同種の事例が明らかにされた。

テックメディアの「マザーボード」は8月7日、マイクロソフトのチャットサービス「スカイプ」のリアルタイム翻訳機能を利用したユーザーの音声ファイルを、外部の委託業者がチェックしていた、と報じた。

チェック対象には、同社の音声認識AIアシスタント「コルタナ」を利用したユーザーの音声ファイルも含まれていた、という。

マイクロソフトの場合も、FAQには「翻訳と音声認識の改善のため、センテンスや自動書き起こしを分析します」としていたが、人間がチェックすることについての具体的な説明はなかった。

●データ保護当局が動き出す

相次ぐ報道の中で、規制当局も動きを見せている。

ドイツ・ハンブルグ州のデータ保護コミッショナー(HmbBfDI)は8月1日、「VRT」への音声ファイル流出を受けて、グーグルに対し音声ファイルのチェックに関して一般データ保護規則(GDPR)に基づく調査を開始した、と発表している。グーグルは、今後3カ月、欧州連合(EU)域内のチェック作業を中止するという。

アップルも同日、音声ファイルのチェック作業中止を表明。今後は同意をベースとした「オプトイン」方式での再開を目指す、としている。

アマゾンは2日から、アレクサのスマートフォン用アプリの設定で、音声ファイルのチェックを拒否できるよう、チェックボタンを設け、音声ファイルのチェックについて、FAQに説明も追加している

アイルランドのデータ保護委員会(DPC)は、すでにグーグル、アップル、マイクロソフトのケースについて情報収集を行っており、新たに明らかになったフェイスブックについても説明を求めていくという

また、ルクセンブルクのデータ保護委員会(CNPD)も、アマゾンのケースについて情報収集を行っているという

米国では大統領選の民主党指名争いへの出馬表明をしている下院議員、セス・モールトン氏が7月25日、スマートスピーカーなどが利用規約に反して私的な会話などを収集した場合に、1件ごとに最高4万ドルの罰金を科すとした法案を提出している

また今回の騒動を受け、米カリフォルニア州では8月7日、アイフォーンユーザーがアップルを相手取った集団訴訟をサンノゼのカリフォルニア北部地区連邦地裁に起こした

原告はアップルが、同意なき録音を禁じたカリフォルニア州のプライバシー法などに違反する、としている。

●米当局のGAFA調査と重なるタイミング

GAFAのAI音声認識サービスをめぐるプライバシー問題は、米国での規制当局の動きともオーバーラップするタイミングでもある。

米司法省は7月23日、GAFAを念頭に反トラスト法(独占禁止法)違反についての調査開始を発表した

「業界をリードするオンライン・プラットフォーム」を対象に、「競争やユーザー利益を阻害する構造をつくり出していないか」に焦点を当てる、としている。

そして翌24日には、米連邦取引委員会(FTC)が、ケンブリッジ・アナリティカ問題をめぐって、フェイスブックに50億ドル(5300億円)の制裁金を科す和解案で合意した、と発表している。

GAFA規制をめぐる潮目が加速しつつあるようにも見える。

(※2019年8月14日付「新聞紙学的」より加筆・修正のうえ転載)