10月28日発売のグーグル最新スマホ「Pixel 6」シリーズ。普通のAndroidスマホに比べてグーグルの最新AIをいち早く体験できるのが特徴ですが、その中でも「文字起こし」の機能が注目されています。

筆者のように取材が多い仕事にICレコーダーは必須アイテムですが、仕事や学業に活用している人も多いのではないでしょうか。しかし録音を聞きながら必要な情報を取り出す作業は面倒なものです。

この面倒な文字起こし作業をスマホ標準の機能として実現してしまったのが「レコーダー」アプリです。これまでは英語が先行してきましたが、Pixel 6では新たに日本語に対応しています。

録音中の画面。音声がどんどん文字に変換されていく(筆者作成)
録音中の画面。音声がどんどん文字に変換されていく(筆者作成)

実際にPixel 6のレコーダーアプリで録音し、文字起こしをさせてみた結果がこちら。さすがに認識ミスはあり、意味が分かりにくい部分はあるものの、スマホ標準の機能で何の労力もかけずにこの結果が得られるのは非常にありがたいと感じます。

依然として一部業種においてはコロナ影響が続いておりますが、前年に比べると広告主と皆様の重要が回復したことやプロダクト改善いくつも積み重ねて参りました。こういったことによりまして、この中以前がある 2 年前の水準をも上回る形で着地行ってきております。

次はご覧ください。で、続いてないの広告売り上げでございます。で、こちら大変好調に推移しておりますで、ディスプレイ広告に関しましてはインプレッションの増加などもありまして、 53% イヤホンや 5。3% という高い成長でした。加えてアカウント広告の方もプラス 18.4% ということで順調に拡大をしております。

(元となる音声はZホールディングスの決算説明会より)

文字起こしには「頭出し」や「検索」に使えるというメリットがあります。会議や講演は前置きが長い場合も多く、これまでは倍速再生やスキップを繰り返して当たりをつける必要がありました。

しかし文字起こしがあれば、全体をざっと眺めて本題に入るところを探せます。そしてタップ(クリック)した場所から音声を再生できるというわけです。音声認識の結果が怪しい部分だけを聞き直すことも簡単です。

単語で検索し、そこから再生を始めることが可能(グーグルのWebサイトより、筆者作成)
単語で検索し、そこから再生を始めることが可能(グーグルのWebサイトより、筆者作成)

検索も便利です。これまで筆者は後から検索するために音声を聞きながらメモを取っていました。AIによる音声認識は固有名詞を認識できないことがあり、完全にメモが不要とはならないものの、メモがなくてもある程度は検索できるというのは心強い点です。

テープ起こしの価値はむしろ高まる?

この文字起こし機能にはPixel 6が搭載するグーグルの新プロセッサー「Tensor」を活用しています。音声認識の中にはクラウドに音声データを上げて処理する方式もありますが、Pixel 6は端末内で処理しており、機内モードがオンの状態でも使えます。

これを見て「AIがテープ起こしの仕事を奪った」と感じる人がいるかもしれません。ただ、実際に音声認識で得られる日本語テキストの精度を考えると、まだそのレベルには達していないと筆者は考えています。

たとえば人間が聞けば文脈から考えて明らかに言い間違いと分かることであっても、AIはそのまま文字にしてしまいます。あるいはその文脈では到底ありえない、突拍子もない単語として認識される場合もあります。

AIがさまざまな分野で活用されるにつれて、AIが苦手とする「人間にしかできない仕事」の価値はむしろ高まっています。AIによる中途半端な文字起こしに触れる機会が増えることで、むしろ高品質なテープ起こしの価値は再注目されるように思います。