AIのために声データを提供する時給2000円のバイトが人気。学習データの枯渇に備え
大規模言語モデル(LLM)の急速な発展に伴い、高品質なデータの獲得がますます重要になっている。TikTokのバイトダンス(字節跳動)や検索エンジンの百度(バイドゥ)など中国のインターネット大手は、人工知能(AI)をトレーニングするための音声データを提供してくれる「録音員」の募集を始めた。 北京市にあるバイトダンスのオフィスでは、2024年初めからスタッフを募集して同社独自のLLM「豆包」向けの録音作業が進められている。2人一組で1回3時間、内容は自由な会話や指定されたワードを含む対話で、報酬は1回300元(約6300円)。ただし、録音に対しては厳しい要件があり、あまりにも質が悪い場合には報酬が減額されるという。
ソーシャルECの小紅書(RED)でも同様の録音アルバイトの募集が多く上がっている。1回300元という報酬は、手軽なアルバイトのなかでもかなり魅力的だと思われるが、実際の仕事はそれほど簡単ではない。録音する前に、必ず2~3分の会話の録音をサンプルとして提出する必要があり、バイトダンスの担当者によって審査され、採用か否か決められる。そして録音の際にも、会話の内容やムード、会話のスタイルなどについて厳しい基準が定められている。 AI技術を開発する大企業は、このように大量のデータを取得するために新しい職業を創出し始めた。少し前に話題になったのは、百度(バイドゥ)のLLM向けタグ付け(アノテーター)に関するニュースだ。同社は地方都市にデータ拠点を建設し、データのタグ付けや方言コーパスのトレーニングなどを進めている。 画像認識AIのテキストコンテンツを検収する作業に従事しているA氏の例を紹介したい。業務内容はAIが認識した諸外国語のテキストが、画像と一致するかどうかを確認することだ。1単語または1文を1つの単位とし、1単位0.1元(約2円)で報酬が計算され、数百項目をチェックすると数十元(数百~千数百円)になる。A氏はフランス語を専門としており、翻訳に関わるデータのタグ付けでは1項目あたり1元(約21円)以上の報酬が得られる。しかし、AIの翻訳が正確かどうかを手作業で判断するには、誤りを見つけるだけでなく、5~6種類のLLMの翻訳内容を比較し、色分けしてアノテーションしなければならず、1文をチェックするのに10~15分かかることもあるという。 AIの3本柱は、データ・アルゴリズム・演算能力と言われており、中でもデータは基盤となるものだ。しかし、公開されているデータは枯渇しつつある。米研究団体エポックAIは、AIモデルのトレーニングに使用できる公開データは2026~32年に枯渇すると予測している。OpenAIのサム・アルトマンCEOは、AI開発企業がインターネット上のすべてのデータをまもなく使い果たすだろうと発言したこともある。 LLM大手はサードパーティ企業を通じてデータを直接購入してもいるが、テキストや録音、動画など、購入したデータの質をコントロールすることはできない。大企業にとっては、自社内で高品質データを調達することが、データの適時性と品質を保証する唯一の方法なのだ。 大企業は高品質のデータを得るためには法的紛争に巻き込まれることも辞さない。例えば、OpenAIは動画サイトYouTubeの動画を無断で使いLLMをトレーニングしたと非難された。NVIDIAやアップル、Anthropicのような大企業も同様の批判を受けている。 良質なトレーニング用データをいかにして確保するか。このことが恐らく今後、AI開発競争の新たなポイントになっていくだろう。 *1元=約21円で計算しています。 作者:字母榜(WeChat公式ID:wujicaijing)、馬舒葉 (編集・36Kr Japan編集部)