AIを用いて脳を録音機にする。

(写真:つのだよしお/アフロ)

脳はすべての過程を神経細胞の興奮パターンに変えて処理している。したがってこのパターンを読み解けば、今脳に入っている現実の刺激や、これから取ろうとしている行動を知ることができるはずだ。これをうまく利用したのが、昨年私のコラムで紹介した、脊髄神経を硬膜の外から刺激して脊損の患者さんが歩けるようにした新しい治療法で、特に失われた脳機能を補う方法の開発には極めて重要な分野だ。

今日紹介するコロンビア大学心と脳の研究所からの論文は、人の声を聞いている時の脳活動を分析して、その活動パターンから聞いている音を再現しようと試みた、言わば脳を録音機にできるか確かめた研究で、1月29日号のScientific Reportsに掲載された(Akbari et al, Towards reconstructing intelligible speech from the human auditory cortex (人間の聴覚野の活動からはっきりとした言葉を再構成するために)Scientific Reports 9:874, 2019)。

この研究は、いわゆる機械学習で何ができるのかも教えてくれる面白い研究だが、研究にとって最も重要なコンピューターアルゴリズムの設計と、それを声に変換し直すシステム設計について私は全く理解できていないので、研究の肝についてはコメントできない。この論文を掲載したScientific Reportsはオープンアクセスの雑誌なので、興味があれば是非自分で確かめてほしいと思う。

さて、同じような試みはこれまで行われており、私も2~3の総説を目にしたことがある。ただ、ほとんどの研究は音を聞いている脳活動を頭蓋の外から記録する脳波や脳磁図を用いていた。この研究の最大の特徴は、音が最初に感じられる聴覚野に直接クラスター電極を埋め込んだてんかんの患者さんを用いて脳の活動を計測している点で、これにより一段高い精度で脳活動を記録することができる。

こうして直接記録した膨大な神経細胞レベルの興奮パターンのどの要素を選ぶのか、機械学習に用いる回帰分析モデルにはなにを使うべきか、また処理したあと声として再現するためどの波長の音を重ね合わすかなど、一つ一つ検討して、現代AIを席巻するdeep neural networkモデルを用いて脳活動を処理し、それをVocoderと呼ばれる方法で再現することで、かなり正確で、さまざまな音素がバランスよく重なった声を再現することに成功している。論文には実際の声の声紋と再現した声の声紋の比較を示しているが、一見したところその一致率は高いように思う。

こうして設定した機械学習プラットフォームは、複雑な脳波全体を処理させ多くのデータをインプットに用いて学習を重ねれば重ねるほど精度は上がり、さらに脳活動を記録する電極も多いほどいいことを示している。すなわち、声の再現性を上げるためには、多くのデータをインプットして計算させることの重要性を実験的に示し、今回の声の再現研究がまさにAI、すなわち機械学習の研究であることを示している。

結果は以上で、要するに今機械学習分野を席巻しているdeep neural networkを用いて、出来るだけ多くのデータを用いて機械学習を繰り返せば、聞いている音を脳波記録から再現することが可能であることを示している。脳の性質から考えると何の不思議もない話だが、今後脳外からの記録で同じ精度を達成できるかなど、「脳を録音機に使う」ためにはまだまだ改善が必要になるだろう。しかし処理のためのフレームワークは明らかになったので、個人的にはいつかは帽子をかぶれば聞いた声を録音できる時が来るように思う。

その上でさらに先を考えると、過去に聞いた声を思い出す時の聴覚野の活動をもう一度声として再現できるとしたら、ウォークマンやiPodを超えるヒットになること間違いない?過去の脳の活動を記録し、再現することは、脳研究の夢だが、それが実現する日も遠くないように思える。