生成AIは「鉄腕アトム」になれるのか？東大・東工大教授が語るAI研究の最先端

1/11(木) 8:46配信

類義語問題への対処：単語埋め込み

次に、似た意味が別々の単語で表されるという類義語の問題だ。たとえば、lemonが「ヒットした」「ブレイクした」「流行した」はほぼ同じ意味だが、それぞれ別の単語である。この意味のつながりを理解できないと、別の確率として計算されてしまう。

こうした類義語問題への対処として、2013年頃から「単語埋め込み」や深層学習の研究が盛んになると、こうした類義語問題に取り組みやすくなった。これは、固定次元のベクトルを使うことによって、コンピューターが単語の意味を内部的に表現する仕組みのことである。

曖昧性問題への対処：文脈依存型単語埋め込み

たとえば、「アメリカ」と類似している単語ベクトルを検索すると、「米国」「アメリカ合衆国」のベクトルがヒットする。人間にはわからない数字の羅列だが、コンピューターなりに類義語を理解していることになる。

このような「単語埋め込み」を利用したのが、「それぞれの単語を単語ベクトルで表現して、ベクトルを合成していく」というアーキテクチャだ。矢印の向きに単語の情報を伝播させていくことで、「アーティスト」は音楽、「lemon」は曲だと認識できるという。 ┌────────── 『文脈依存型の単語埋め込み』というのが、2017年頃に明確に打ち出されたアイデアです。『アーティスト』のベクトルに対し、『ヒット』『日本人』『lemon』の情報を統合したベクトルを作ることで、より意味が明確になった埋め込み表現を合成できる。周辺の文脈を考慮した表現が得られることで、曖昧性問題に内部的に対処できていると我々は考えています（岡崎氏） └──────────