高輪ゲートウェイのAI「渋谷さくら」に批判集中 AIの声に潜む性差別とは?

スマホから流れる音声アシスタントの声は、なぜ女性なのか(写真:アフロ)

女性駅員AI「渋谷さくら」に起きた批判

2020年3月14日に「高輪ゲートウェイ駅」が開業しました。様々なメディアが同駅を報じる中、デジタルサイネージ(案内用のディスプレイ)に表示されたAI駅員をめぐって、主にジェンダーの視点から批判が生じました。

AI駅員は男性駅員タイプと女性駅員タイプの2種類があり、乗り換え案内や周辺情報など、声に出して質問すると答える仕様になっています。

東洋経済の記事によれば

男性タイプを開発したのはJR東日本情報システムで、駅構内や周辺の案内は的確だが、いたってまじめな印象。ところが女性タイプはアニメキャラクターで会話の最中に髪の毛を触る仕草をするなど、かなり凝った作りだ。

出典:「AI女子駅員が大活躍「高輪ゲートウェイ」の衝撃」(2020/03/16)

とあります。この女性タイプの髪の毛を触るといった仕草が、典型的な「女性らしさ」といったステレオタイプを強調しているとして批判が集中しました。また女性タイプのキャラクターは「渋谷さくら」という名前がついており、名前や年齢など、AIとはいえ個人情報を聞き出すことができます。男性タイプもプライベートな質問に答える仕様になっていますが、男女関係なく、業務と関係ない個人情報をAIとはいえ聞き出せるのは、現代的な価値観に照らして問題があるといった批判も生じています。

ちなみに、男性駅員がリアルなキャラで女性駅員がアニメキャラなど、両者には大きな差があります。そこでJ-CASTニュースがJR東日本に取材したところ、そもそもAI駅員は試行導入であり、両者は製造元も異なるということでした。あくまで試験的に導入しているということですが、それでも女性らしさを強調したり、個人情報を聞き出せる事に対しての批判は、想定できたようにも思われます。

AIの声が性差別を助長する?

このように議論されることが多いAIとジェンダーバイアスの問題ですが、以下では特に音声に注目してみたいと思います。

スマホやスマートスピーカーなど、私たちの多くが利用している機器に搭載されているAIアシスタント機能も、その多くのデフォルト設定が「女性の声」になっています(設定で男性の声に変更もできますが、少なくとも初期設定の声は女性が大半です)。

その理由は、男性の低い音は一部のスピーカーでは出しづらかったり、あるいは女性の声の方が温かみを感じられるといった調査が関係していると考えられます。しかしビジネス面を考慮したとしても、特に後者の点は従来の文化的ステレオタイプ(先入観、思い込み)が関係しており、社会的公平性の観点からも問題があります。

またこうした状況においては、AIが性差別を助長することになってしまいます。実際、2019年5月にユネスコ(国連教育科学文化機関)が提出した報告書においても、若い女性の声のAIアシスタントは性差別を助長すると指摘しています

例えば、報告書には次のような記述があります。

多くの企業は、サービスや情報を単に役立つものではなく、権威を提供するために、男性の声を使い続けている。例えば日本の証券会社のコールセンターでは、株価の提示には自動化された女性の声を使用しているが、取引を促進したり確認する際には、男性の声を使用している。(中略)

これらの例が示しているのは、音声技術が提供する行為や支援の種類によって、しばしばジェンダーが決定されるということである。

出典:I'd blush if I could: closing gender divides in digital skills through education(p.99.)

要するに、男性と女性は、用途によって声が使い分けられているというのです。また報告書では、特に若い女性の声が「従順なお手伝いさん」というイメージを想起させることも問題視しています。さらに、この報告書のタイトルは「I'd blush if I could(赤面できたらしています)」ですが、ジャーナリストの治部れんげ氏が指摘するように、「赤面できたらしています」は、アップルのAIアシスタント「Siri」がセクハラ発言を受けた際に返すフレーズです。Siriは怒ることも反論することもできず、曖昧な返答をするだけです。つまりコンピュータ(そしてその開発元である大手IT企業)はセクハラを行うユーザーに対して、反対の声を挙げることができていないということです。

こうした状況において社会は変化を促すべきですが、ある団体がジェンダーレスな音声を開発しています。特定のジェンダーに限定されない声を用いれば、こうしたバイアス(偏見)の解消につながるからです。

「Q」と名付けられたジェンダーレスな音声は、LGBTの祭典を企画する「コペンハーゲンプライド」や、パブリッシャー「VICE」のクリエイティブエージェンシーチーム「Virtue」などによるコラボレーションによって開発されました。

開発チームが様々な声を分析したところ、人の声は145ヘルツ~175ヘルツの間では中性的なものとして感じられることが判明し、そこからジェンダーレスな音声をつくりあげたとのことです。Qのような中性的なデジタル音声を用いることは、社会的にも意義深いものでしょう

ジェンダーの問題も、AIが偏見を助長するという問題も、ともに乗り越えるべき社会の課題です。もちろん、男性や女性といったジェンダーを用いることで新しい表現を生み出すことも可能です。その一方で、ジェンダーレスな音声は新しい試みです。より広く普及されることを期待します。

(追記)2020年3月30日16:30、内容を一部加筆・修正しました。