生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説（生成AIウィークリー）

4/1(月) 9:56配信

音声の一部分を別の言葉に変えても不自然にならない音声編集モデル「VoiceCraft」

「VoiceCraft」は、オーディオブックや動画、ポッドキャストなど様々な音声データで高い性能を発揮する、音声の編集・合成技術です。音声内容の一部分を別の言葉に変更しても、人間の耳では編集前の音声との違いが区別できないレベルの自然さを実現しています。例えば、「I found this um incredible model」という音声の一部分を変更して「I found the amazing VoiceCraft model」に変えた場合でも、話し手の特徴を捉えた合成で、あたかも元の話者が話したかのような表現を出力します。また、事前学習なしで、ある話者の数秒程度の音声サンプルがあれば、その話者の声で任意の文章を読み上げるゼロショットTTS機能も備えています。研究チームは、多様なアクセント、話し方、録音条件、背景ノイズを含む音声編集用データセット「REALEDIT」を新たに作成しました。実験において、VoiceCraftは従来の最高性能モデルを大きく上回りました。VoiceCraftで編集された音声と元の音声を人間が聞き比べた結果、VoiceCraftで編集された音声の方が、オリジナルの実際の録音よりも48%の割合で自然であると評価されました。 VoiceCraftが音声処理タスクで高い性能を達成できたのは、Causal maskingとDelayed stackingを組み合わせたトークン並べ替え手法を導入したことが大きな要因です。これにより、モデルは既存の音声シーケンス内で効率的に音声を生成できるようになりました。

LLMが生成した長文をGoogle検索し、内容が事実かどうかを自動で調べてくれるシステム「SAFE」をGoogleなどが開発

大規模言語モデル（LLM）は近年目覚ましい進歩を遂げていますが、長文の事実性に関してはまだ信頼性が足りません。事実を求める質問に対して、事実と矛盾する誤った情報を含む回答を生成することが多いです。そこでこの研究では、LLMの長文における事実性をベンチマークするための新しいプロンプトセット「LongFact」を提案しています。LongFactは38のトピックにわたる数千の質問で構成されており、GPT-4を使って生成されました。さらに、LLMエージェントを自動評価器として使用し、「Search-Augmented Factuality Evaluator」（SAFE）と呼ばれる方法で長文の事実性を評価することを提案しています。SAFEはLLMを利用して長文の回答を個々の事実に分解し、Google検索を使って事実の正確性を評価します。各事実に対して検索クエリを送信し、検索結果によってその事実がサポートされているかを判断します。実証的には、SAFEが人間の評価者を上回る性能を発揮することを示しています。約1万6千の個別事実において、SAFEはクラウドソーシングによる人間の評価者と72%一致しました。ランダムに抽出した100件の不一致事例では、SAFEが76%でより正確でした。さらにSAFEは人間の評価者の20倍以上も安価で実行しました。また、4つのモデルファミリー(Gemini、GPT、Claude、PaLM-2)にわたる13の言語モデルをLongFactでベンチマークした結果、一般的に大規模な言語モデルになるほど長文の事実性が高いことがわかりました。

次ページは：影や反射も考慮し、画像内の物体だけを自然に消す・挿入が可能なシステム「ObjectDrop」をGoogleなどが開発

2/3ページ

Yahoo!ニュース

生成AIの回答を自動でGoogle検索し事実か確認するAI「SAFE」、自律型AIをコントロールするためのOS「AIOS」など重要論文5本を解説（生成AIウィークリー）

音声の一部分を別の言葉に変えても不自然にならない音声編集モデル「VoiceCraft」

LLMが生成した長文をGoogle検索し、内容が事実かどうかを自動で調べてくれるシステム「SAFE」をGoogleなどが開発

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）