ＧＡＦＡがこぞってユーザーの会話を“盗み聞き”、データ保護当局が動く

平和博

桜美林大学教授　ジャーナリスト

2019/8/15(木) 6:55

ＧＡＦＡがそろってユーザーの会話を“盗み聞き”していた――。

ユーザーの明確な同意もないまま、スマートスピーカーなどから取得した大量の音声ファイルを外部委託業者などがチェックしていた、という実態が、次々と明らかになっている。

アマゾンに始まり、グーグル、アップル、マイクロソフト、そして新たにフェイスブックもこれを認めた。

その目的はいずれも、ＡＩの音声認識の精度を高めるためのチェック作業だった、という。

そのために外部業者に発注し、グローバル規模の担当者が、ユーザーがＡＩに話していた音声や、何かのはずみで録音された家庭内の会話などを聞き取り、それを書き起こしたり、チェックをしたりしていたのだという。

この問題ではすでにドイツのデータ保護当局がグーグルに対して調査を開始。アイルランドやルクセンブルクのデータ保護当局も、情報収集を始めているという。

さらに米国では、スマートスピーカーなどを対象にしたプライバシー規制法案の提出や、アップルを相手取った集団訴訟も起こされている。

米国では、ＧＡＦＡの独占禁止法違反をめぐって司法省が調査に動き出したというタイミングでもある。大西洋をはさんだＧＡＦＡをめぐる動きが、加速している。

●フェイスブックが音声チャットを書き起こす

フェイスブックによる音声チャットのチェックを報じたのはブルームバーグだ。

１３日付の報道によると、問題となったのはフェイスブックが提供する「メッセンジャー」のチャットサービス。

「メッセンジャー」では文字によるチャットに加えて、音声ファイルをアップロードすることによるチャット機能も使うことができる。

ブルームバーグが複数の関係者の話として伝えるところによると、この音声ファイルの聞き取りをし、書き起こしをする作業を、ユーザーの同意を得ることなく外部業者に委託し、数百人規模の人員で行わせていたのだという。

その目的は、ＡＩによる音声認識精度の向上だ。

「メッセンジャー」の音声チャットでは、音声ファイルを自動的に文字化して表示する機能もある（※日本語には対応していなかったようだ）。

その際に使われるＡＩの音声認識の出力結果が正しいかどうか。その答え合わせのための「正解」をつくる作業を、人間にさせていた、という。音声ファイルはユーザーが特定できないよう、匿名化されていた、という。

フェイスブックＣＥＯのマーク・ザッカーバーグ氏は、２０１８年４月１０日、８７００万人分のユーザーデータが不正流用された「ケンブリッジ・アナリティカ問題」で米上院で証言に立った際、ゲイリー・ピーターズ議員（民主）から「モバイル端末の音声をユーザーデータ取得に使っているのか」との質問を受けている。

この時のザッカーバーグ氏の回答はこうだった。

議員がおっしゃったのは、巷に流布する陰謀論です。我々がユーザーのマイクと通じて内容を聞き取り、それを広告に使っている、という。そんなことはしていません。

そして、フェイスブックはその２カ月後の補足説明文書では、こう説明している。

フェイスブックは、ユーザーがアプリ上で許諾し、音声が必要な特定の機能（音声メッセージ機能など）を使用する場合にのみ、ユーザー端末のマイクにアクセスします。

だが、人間がその音声をチェックすることについては、明確な説明はされていなかった。

ブルームバーグの取材に対し、フェイスブックは「アップルやグーグルと同様に、我々も人間による音声のチェックは１週間以上前に中止した」と回答している。

フェイスブックが他社の社名を出しているのは、同様の問題が今春以降、相次いで指摘されてきたことを受けたものだ。

そして、その騒動の中でも、フェイスブックはごく最近まで同種の行為を続けていた、と認める発言でもある。

●騒動の発端はアマゾン

騒動の発端となったのはアマゾンだ。

アマゾンの問題も、最初に報じたのはブルームバーグだった。

４月１０日付のブルームバーグの報道によると、アマゾンはスマートスピーカー「エコー」で使われているＡＩ「アレクサ」の音声認識精度を上げるため、外部業者を含む数千人規模のスタッフを、ボストン、コスタリカ、インド、ルーマニアなどグローバルに配置。１日９時間のシフト勤務を組み、１人あたり１０００本の音声ファイルから「テイラー・スウィフト」など特定の言葉を抜き出し、ラベル付けの作業を行っていたという。

「アレクサ」では、ユーザーの音声をＡＩが認識し、文字列に変換。この文字列から自然言語処理でコマンドを認識し、音楽をかけたり、ニュースを読み上げるといった動作をする。

この音声から文字列、コマンドへとつながる精度を上げるための、作業の一環のようだ。

なかには犯罪の可能性を伺わせる音声もあったという。アマゾンではその場合の対処法も取り決めていると説明するが、ルーマニアでこのケースに遭遇した関係者は、アマゾンは介入はしない、と告げられたという。

アマゾンのケースでも、音声は個人が特定されないよう匿名化されていた、という。

アマゾンはＦＡＱの中で、「アレクサの音声認識と自然言語処理の学習のためにあなたのリクエストを利用します」と述べているが、具体的に、音声を人間のスタッフがチェックしていることについては、説明はされていなかった。

また、ブルームバーグはこの時、同様のチェックはアップル、グーグルでも行われている、と指摘していた。

●グーグルの音声ファイル１０００件を入手する

７月１０日、ベルギーの公共放送「ＶＲＴ」は、グーグルがスマートスピーカー「グーグルホーム」と音声アシスタント「グーグルアシスタント」を通じて取得し、内容チェックに使用している音声ファイル１０００本を入手し、その実態を明らかにした。

「ＶＲＴ」は、グーグルが外部委託先の関係者を通じて、１０００本の音声ファイルを入手したという。

グーグルでは、グローバルに数千人規模で、この音声ファイルにアクセスすることができるようだ。

これらは匿名化されているが、その音声ファイルの内容などから本人を特定することは可能で、「ＶＲＴ」は実際に特定した当人たちに取材に出向いている。

さらに、「ＶＲＴ」が確認した１０００件の音声ファイルのうち、１５３件はベッドルームでの会話など、センシティブな内容が含まれていた、という。

また、関係者の話では、女性が虐待を受けているような音声もあったが、そのようなケースでの具体的な対処法は示されていなかった、という。

「ＶＲＴ」の取材に対し、グーグルはこれが全体の０．２％の音声ファイルに対してのみ行われており、ファイルは匿名化されているとし、こう説明している。

グーグルアシスタントのようなサービスを支えるテクノロジーの開発には、このような作業は非常に重要です。

また、「ＶＲＴ」の報道の翌日、公式ブログでこの音声ファイル流出が同社のポリシー違反に当たるとし、調査チームが究明にあたると表明。合わせて、音声ファイルのチェックの必要性を、改めて説明している。

●アップルでは「病状」「薬物取引」「セックス」

７月２６日、英ガーディアンも関係者の話として、アップルにおける音声ファイルのチェックの実態を報じている。

アップルの音声アシスタントＡＩ「シリ」が聞き取った音声の内容を、やはり人間のスタッフがチェックし、動作レベルを評価していた、という。アップルの説明では、このチェック作業に使われていたのは全体の１％以下で、音声は仮名化されていた、という。

ガーディアンに問題を告発した外部業者の関係者によれば、音声の中には、医師と患者の病状に関する会話や薬物取引の現場、セックスの模様など、意図せずシリが起動していたようなセンシティブな内容も含まれていた、という。

だが、その内容に関する報告の手順はなかったようだ。

ガーディアンの取材に対し、アップルはこう説明している。

シリに対するリクエストのごく一部を、シリの機能改善と聞き取りの向上のために分析していました。ユーザーのリクエストは、そのユーザーのアップルＩＤとは紐づいていません。

アップルは、ｉＯＳに関するセキュリティ文書の中で、音声ファイルは半年間保存されて、音声認識機能に利用されるとし、その後は個人特定データを削除し、２年間はシリの機能改善に使われる、などとしている。

●マイクロソフト「スカイプ」でも

マイクロソフトでも、同種の事例が明らかにされた。

テックメディアの「マザーボード」は８月７日、マイクロソフトのチャットサービス「スカイプ」のリアルタイム翻訳機能を利用したユーザーの音声ファイルを、外部の委託業者がチェックしていた、と報じた。

チェック対象には、同社の音声認識ＡＩアシスタント「コルタナ」を利用したユーザーの音声ファイルも含まれていた、という。

マイクロソフトの場合も、ＦＡＱには「翻訳と音声認識の改善のため、センテンスや自動書き起こしを分析します」としていたが、人間がチェックすることについての具体的な説明はなかった。

●データ保護当局が動き出す

相次ぐ報道の中で、規制当局も動きを見せている。

ドイツ・ハンブルグ州のデータ保護コミッショナー（ＨｍｂＢｆＤＩ）は８月１日、「ＶＲＴ」への音声ファイル流出を受けて、グーグルに対し音声ファイルのチェックに関して一般データ保護規則（ＧＤＰＲ）に基づく調査を開始した、と発表している。グーグルは、今後３カ月、欧州連合（ＥＵ）域内のチェック作業を中止するという。

アップルも同日、音声ファイルのチェック作業中止を表明。今後は同意をベースとした「オプトイン」方式での再開を目指す、としている。

アマゾンは２日から、アレクサのスマートフォン用アプリの設定で、音声ファイルのチェックを拒否できるよう、チェックボタンを設け、音声ファイルのチェックについて、ＦＡＱに説明も追加している。

アイルランドのデータ保護委員会（ＤＰＣ）は、すでにグーグル、アップル、マイクロソフトのケースについて情報収集を行っており、新たに明らかになったフェイスブックについても説明を求めていくという。

また、ルクセンブルクのデータ保護委員会（ＣＮＰＤ）も、アマゾンのケースについて情報収集を行っているという。

米国では大統領選の民主党指名争いへの出馬表明をしている下院議員、セス・モールトン氏が７月２５日、スマートスピーカーなどが利用規約に反して私的な会話などを収集した場合に、１件ごとに最高４万ドルの罰金を科すとした法案を提出している。

また今回の騒動を受け、米カリフォルニア州では８月７日、アイフォーンユーザーがアップルを相手取った集団訴訟をサンノゼのカリフォルニア北部地区連邦地裁に起こした。

原告はアップルが、同意なき録音を禁じたカリフォルニア州のプライバシー法などに違反する、としている。