音声AI にしゃべるだけ! ChatGPTで仕上げる方法『WhisperTranscription』
![](https://newsatcl-pctr.c.yimg.jp/t/iwiz-yn/rpr/kandatoshiaki/00342439/title-1679537232903.jpeg?exp=10800)
KNNポール神田です。
日進月歩のAIの進化、いやもうすでに『秒進分歩』といったほうが良いくらだ。毎週のように、新たなサービスが公開され、AIの動向をキャッチアップするだけでも大変。
しかし、テクノロジストでなくても、一般人が、日常レベルで使いこなせる方法をここでは紹介していきたい。
■誰もが音声でダラダラとならばしゃべることができる…
かつての音声認識アプリでは、音声を認識してくれるけれども、内容までは精査することができなかった。
誰もが音声でダラダラとしゃべることができる。しかし、それを完璧に文字起こしされてもとても使い物にならない。そこにChatGPTの登場だ。文字化されているものを格調高くしたり、洗練させて要約することもできる。
『ChatGPT』などでは文字であれば、『要約』することは、とても得意な技術だ。
そして、日本語の音声を正確に『文字起こし』してくれる技術を、『ChatGPT』を開発しているOpenAI社が公開している。
それが『Whisper』だ。
![出典:OpenAI](https://newsatcl-pctr.c.yimg.jp/t/iwiz-yn/rpr/kandatoshiaki/00342439/image-1679537866116.png?fill=1&fc=fff&fmt=jpeg&q=85&exp=10800)
https://openai.com/research/whisper
Whisperの強みは…
1.日本語を含む多言語に対応
2. 電話対応やナレーション、会議での録音など様々なシチュエーションに強く、また雑踏などノイズにも強いです。
3.高い文字起こし精度
68万時間に及ぶ多様性がある大量のデータを学習に利用しているため、高い文字起こし精度を実現しています。
※日本語の単語誤り率(WER/Word Error Rate)は6.4%と利用できる言語の中でも高い文字起こし精度を誇ります。
しかし、この『Whisper』のAPIを使ったAIによる文字起こしの使い方は…
『huggingface』や『Google Colab』『Python』『CUDA』とかなり敷居が高い…。テクノロジストでないと、お手上げだ!
https://gigazine.net/news/20220929-openai-whisper-install-and-usage/
しかし、そんな面倒なのをかっ飛ばして、Macユーザーであれば、インストールするだけで使えるアプリがあった。
それが、『Whisper Transcription』だ。
数ある無料macOSアプリの『ユーティリティー部門』の中で52位のランキングだ。ちなみに1位は『Microsoft Bing for Safari』だ。
![出典:Whisper Transcription](https://newsatcl-pctr.c.yimg.jp/t/iwiz-yn/rpr/kandatoshiaki/00342439/image-1679538762565.png?fill=1&fc=fff&fmt=jpeg&q=85&exp=10800)
https://apps.apple.com/jp/app/whisper-transcription/id1668083311
こちらをダウンロードし、辞書ファイルもダウンロードするだけで活用することができる。
重宝するのが、音声ファイルの読み込みの多様さと、新規レコーディングでマイクさえあれば、だらだらと喋っている日本語でも文字起こしをしてくれるところだ。
そして、喋ったあとに、『文字起こし』をしてもらった文字を、『ChatGPT』で『下記の文章を要約してください』のあとに『コピー&ペースト』すると文字が要約される。
『ジャーナリスト風にしてください』とすると『である調』に変換してくれる。
これをそのまま使うまでもなく、修正すれば、話すだけで、原稿の骨子をまとめることができる。
これでかなり、有能な秘書に『口述筆記』させたこととなる。
一連の作業を動画で紹介してみた…。
何よりも、これが『完全無料』だから、いろんなAIによる、『サービスの価格破壊』や『単一スキル保持者の不要論』が発生することは確かだ。AIに仕事を奪われるか、AIで仕事を生み出すかは、AIに対する立ち位置で大きく変わることだろう。
2023年、AIによる産業革命が勃発している…。むしろ、インターネット誕生30年目のウェブにまかれた学習データが集結するという、本当のインターネットの到来なのではないだろうか?