NTTが注力する「IOWN」と「tsuzumi」の“現在地”を追う
日本電信電話株式会社(以下、NTT)の研究開発イベントである「NTT R&Dフォーラム 2024」が、11月25日から29日まで、東京都武蔵野市のNTT武蔵野研究開発センタで開催されるのにあわせ、11月21日にその内容をメディア向けに公開した。そのなかで、NTT 執行役員 研究企画部門長の木下真吾氏が、「IOWN INTEGRAL」をテーマにした基調講演を行い、IOWNへの取り組みや、NTTが開発したtsuzumiの最新状況などについて説明した。 【この記事に関する別の画像を見る】 木下氏が講演のテーマに掲げた「IOWN INTEGRAL」は、「NTT R&Dフォーラム 2024」のテーマでもあり、「積分」と「不可欠」という2つの意味を持たせたという。 「IOWNという関数に、ネットワーク、セキュリティ、AIといった技術を、変数として入れ、さまざまな分野にIOWNが適用され、積みあがっていくという積分。そして、積みあがったIOWNの価値が、地球や人類にとって、不可欠なものになっていくという意味を込めた」と説明した。 基調講演の内容から、IOWNとtsuzumiの「現在地」を追った。 ■ IOWNの最新状況 IOWNは、現在、IOWN 1.0から4.0までが、ロードマップとして公開されている。 IOWN 1.0は、ネットワーキングの技術として進化。データセンターとデータセンターを結ぶネットワークを完全に光化することを目指している。また、IOWN 2.0以降は、コンピューティングの世界において、光電融合技術を活用することを目指しており、IOWN 2.0では、サーバーのボードとボードの接続を完全に光化。IOWN 3.0では、ボードのなかに搭載されているパッケージ(チップ)とパッケージを完全光化する。また、IOWN 4.0では、2032年以降に、チップのなかを光化することになる。 その上で、PEC(Photonics-Electronics Convergence:光電融合)、APN(All-Photonics Network)、DCI(Data-Centric Infrastructure)という3つの取り組みが進められている。 ネットワーキング技術であるIOWN 1.0では、APNが3段階に進化していくことを示している。 NTT東日本および西日本では、2023年3月にAPN IOWN 1.0サービスの提供を開始しているが、2024年12月1日からは、新たなサービスとして、「All-Photonic Connect powered by IOWN」の提供を開始することを発表した。帯域やエリア、インターフェイスの拡大や拡充を行った新サービスであり、従来は100Gbpsだった帯域保証を、世界最高水準となる800Gbpsへと拡張。OTU4に加えて、100GBASE-LR4、400GBASE-FR4/LR4といったイーサネットインターフェイスを了できるようにしたことで、企業でのIOWN APNの導入を促進。顧客拠点に設置する必要があった終端装置も不要にすることで、光ファイバーだけを引き込めばいいという状態が可能になり、省スペース化と低消費電力化を実現できるという。 また、日本-台湾間の約3000kmをAPNで接続し、約17msecの超低遅延を実現。「光ファイバーのなかを光が進むスピードは15msec。APNによる実効的な遅延は1~2msecに抑えている。また、フレッツ光やI-WANで提供する同じ10Gbpsのサービスと比べても、FTP転送速度は、2~3倍近いスピードとなっている。同じ10Gbpsの帯域でも、APNでは遅延時間が短いため、転送速度が圧倒的に異なる」という。 ここでは、APNによる超高速バックアップとしての活用を紹介。日本の生産拠点で生成したデータを、台湾のデータセンターに、瞬時にバックアップするといった使い方のほか、スタジオやスタジアム、海外(台湾)にカメラを設置し、APNにより、離れた制作拠点やクラウドと接続することで、さまざまな場所からの中継データを、リアルタイムに放送、編集できたり、台湾に設置しているカメラを、APNによって遠隔地からコントロールしたりといったことも可能になる。 また、APNによるデータセンター間接続では、英国、米国に加えて、インドにおいて、複数のデータセンターをつなぎ合わせて、仮想化したひとつの大規模データセンターとして運用する取り組みも開始している。 さらに、IOWN APNは、5G基地局に活用することで、商業地域と住宅地域の時間帯ごとの人口変化をとらえて、昼夜で基地局の稼働状況を最適に制御し消費電力を削減したり、ワット・ビット連携により、地域を選ばずに、より効率的なデータセンターの運用が行えたりといった提案も進めていることを紹介した。 「データセンターは東京・大手町から50km圏内に建設したいという要望が多いが、再エネ設備は50km圏内にはほとんど建てられない状況にある。APNを活用することで、郊外にデータセンターを建設し、送電コストを抑えることができるほか、九州のデータセンターが曇り空となり発電量が下がった場合に、晴れ間が出てきた北海道のデータセンターに処理を移すといったようにすることで、再エネの利用率を高め、コスト削減につなげることができる。エネルギーを送る代わりに、ワークロードを通信で送るといった活用法になる」と位置づけた。 また、生成AIの学習のためには数千台以上のGPUが必要になるが、その際に複数データセンターを低遅延のAPNでつなぐことで、分散したデータセンターをひとつのデータセンターのように活用できる事例も紹介。これまでのインターネット環境では、単一データセンターでの学習と、分散データセンターでの学習には、ネットワークの遅延によって、29倍の学習時間の差が生まれていたが、IOWN APNでは1.006倍となり、単一データセンターでの学習と差がない実験結果が出ているという。 さらに、APN step3の取り組みについても説明。既存の光通信サービスに比べて、伝送容量は125倍、伝送遅延は200分の1、電力効率は100倍を実現し、さらに、オンデマンド光パス制御により、ひとつのAPNのなかに複数の波長を衝突させることなく共存させることができるようになるという。 ここでは、光パス設計技術、波長変換・波長帯変換により、熟練作業者が2~3時間以上かけて行っていた光波長パスの設計および設定を数分で自動設計し、異なる波長帯に変換して、遅延なく利用できる環境を確立できることを訴えた。 また、APN step1では専用線としての使い方であり、APN step2では県をまたいだ専用線としての利用であったが、APN step3では、接続先を毎日変更しても制御できるようになることも強調した。 NTTの木下氏は、「IOWN APNは、ダークファイバーに比べて、開通期間が短く、接続先の変更自由度が高く、波長やパスに関わる管理コストが低いという優位性がある。また、長距離伝送が容易であり、信頼性や冗長性にも優れている。装置は利用ユーザーでシェアするため、経済性のメリットも大きい」と述べた。 一方、PEC(光電融合デバイス)では、テータセンター間接続のPEC-1(2022年度)、ボード接続のPEC-2(2025年度以降)、チップ間接続のPEC-3(2028年度以降)、チップ内光化のPEC-4(2032年度以降)といったロードマップを公表している。 「PEC-3では、レーザー発振装置をパッケージに搭載するため、さらなる小型化が必要になる。シリコンフォトニクスでは限界があるため、メンブレン化合物半導体を活用することが求められる。これがPEC-3の壁を越える手段になる」と語った。 メンブレンフォトニクスは、炭化ケイ素(SiC)基板上に、インジウム燐(InP)系を薄膜化(メンブレン化)するもので、直接変調レーザーの小型化や高速化に重要な活性層の光閉じ込めと、発熱の低減を実現できる。これまでの縦堆積ではなく、横堆積による薄膜化方法を採用しているのが特徴で、これもNTT独自の技術となっている。 DCIは、IOWN時代のコンピュータインフラと位置づけており、コンピューティングリソースを細分化し、データを中心に必要なコンピューティングリソースのみを稼働させることで、高効率化、低消費電力化が可能になる。また、コンピューティングリソースの接続距離を伸ばすことができ、大規模なコンピューティングシステムを実現できるようになる。 例えば、大量のカメラ映像をリアルタイム処理する画像解析AIにおいては、昼夜間の人口変化にあわせて、最適なリソース割り当てを行うことで、大幅な電力効率化を実現するほか、地域的な分散した複数のデータセンターを効率的につなぎ、大規模なスケールで、高性能で、電力効率の高い最新インフラを構築できる。 2026年ごろの商用化を目指しているDCI-2では、計算機リソースをボード単位に細分化したDCIサーバーを、光電融合デバイスを用いて光スイッチで接続し、DCIコントローラによって、最適に制御。8倍の電力効率を実現することができるという。 なお、IOWN Global Forumメンバーとして、2024年10月時点で、アジア、米州、欧州を含む154組織/団体が参画していることも明らかにした。 ■ 生成AI「tsuzumi」 NTTの研究開発部門が取り組むもうひとつの柱である生成AI「tsuzumi」については、2023年11月に発表後、2024年3月から商用サービスを開始。現時点で、900社以上の導入相談があることを明らかにした。 tsuzumiは、1個のGPUやCPUで動作が可能な軽量化と、業界や組織の専門知識を保有させやすいカスタマイズ性、テキストおよび図表の読解にも対応したマルチモーダル、世界トップクラスの性能と日本語への対応、基盤モデルを1から開発したスクラッチ開発を特徴にあげる。 「同等規模のパラメータのLLMと比較しても高い性能を誇り、特に日本語の性能が高い。また、自分たちで開発しているため、自分たちでデータを管理し、自分たちでチューニングしやすいという特徴を持つ」とする。 tsuzumiは、70億パラメータのtsuzumi 7B V1.0を発表して以降、学習データサイズを増やす、コンテキストサイズを拡大する、RAGを強化するといった改善を行った、同V1.1やV1.2を発表している。 2024年11月20日には、マイクロソフトのMicrosoft Models-as-a-Serviceにおいて、提供される8つのLLMのうち、日本のLLMとしては唯一、提供を開始。また、セールスフォースのSalesforce LLM Open Connectorによって、tsuzumiがSalesforceサービスと連携することも発表されている。 現在、視覚読解やRAG性能の強化を図った130億パラメータのtsuzumi 13B V1.0βを公開している。 「tsuzumi 7B V1.0に比べて、かなり精度を向上させている。Llama-3-8Bと比較しても、要約、QA、和訳といった機能ではtsuzumiの強みが発揮されている」とした。 tsuzumiの機能拡張では、AIエージェントの事例を紹介した。 ひとつめは、AIエージェントによる物品購入の事例であり、ユーザーの代わりにPCを操作し、決済までしてくれるというものだ。 Slackのインターフェイスを利用して、「このカタログに載っている商品Aを購入して」と入力すると、商品購入サイトに行って、商品Aを検索し、カートに入れるだけでなく、社内購買システムにアクセスし、マニュアルを参照しながら、必要項目を入力し、発注伝票を発行し、決裁まで行う。 2つめは、AIエージェントによるデジタルヒューマンである。 ここでは、従来の無機質に感じるAI的な対応ではなく、人らしく自然に振る舞うデジタルヒューマンの実現を目指している。 素早い反応と、途中で会話をさえぎっても、それに対する答えを行ったり、以前の対話を続けるために話題を振ってくれたりするのが特徴だ。 NTTの技術である映像認識と状況認識、音声認識によってとらえた内容をもとに、3層モデルで処理。第1層では「反射」機能により、相づちや瞬(まばた)き、「あー」や「うー」といったフィラーを、NTTが開発したルールベースを用いて反射的に生成する。第2層は「速い思考」機能であり、tsuzumiを利用して、対話生成やモーション選択を行い、すぐに反応した形で対話を行う。第3層は「遅い思考」機能であり、ChatGPTにより、話題を選択して、話の方向性を決めることになる。これらの3層の結果をもとに、NTTが持つ技術によって、表情や動作の出力、音声合成による人との対話をスムーズに行う。 また、「音声tsuzumi」と呼ぶ事例では、声の特徴や内容を理解し、自然な言葉で回答する技術を紹介。会話の内容だけでなく、話し方の抑揚、スピードなどから、相手の性別や年齢などを推定するほか、話し方がゆっくりしているため、緊急度を要する問い合わせではないことも判断する。 さらに、発話単位音声要約機能では、話した言葉をその場で要約して表示。無駄な部分をなくし、簡潔に要約するため、コールセンターでの業務などにも適しているという。 マルチモーダルの事例としては、スポーツトレーナーの代わりに走り方を指導する事例を紹介した。ランニングマシンで走っている様子をもとに、VLM(ビジュアルランゲージマシン)が、手本となるランナーとの走り方の違いを分析。目線が下向きであることや、走っているときのひざの位置が低かったり、接地の仕方がかかとに比重があったりすることなど判断し、LLMが指導計画を生成。音声で指導内容を伝えたり、触覚ベストの振動を利用して、足の設置状態を通知したりといったことを行い、正しいランニングフォームの修正につなげる。 tsuzumiの応用例としては、自己進化型ZTO(ゼロタッチオペレーション)フレームワークの事例をあげた。リアルな現場での故障事例を収集、可視化、分析して、対応措置をリアルの現場に返す同フレームワークの仕組みに対して、NW(ネットワーク)-AI学習基盤を追加。ネットワークのデジタルツインを構築し、LLMによって疑似故障を生成することで、どんな不具合が発生するのかをシミュレーション。その結果を同フレームワークに反映し、未知の故障にも対応できるようになるという。 また、セキュリティレポートの生成にもtsuzumiを活用。大規模なセキュリティインシンデントのニュースを受けた際などに、まずは新人がレポート案を作成し、これをベテランがブラッシュアップするという従来の方法ではなく、ベテランの経験値を生かして、生成AIによって、レポートを自動生成する。NTTには、大量の新人が作成したレポートと、大量のベテランが手直ししたレポートが蓄積されており、これを学習することで、ベテランの暗黙知を形式化。セキュリティインシデントに関する情報が発信された場合に、生成AIによって、ベテランが作成したようなセキュリティレポートを作ることができる。 「GPTで作成したセキュリティレポートは一般的な情報しか書かれていないが、tsuzumiを応用したレポートでは、自社に対してはどんな影響があるのか、社内システムは対応済みなのか、どこから対応すべきなのかといったことを盛り込むことが可能になる」という。 なおtsuzumiでは、AIコンステレーションという考え方を用いている。 大規模なひとつのLLMを開発するよりは、専門性や個性を持った小さなLLMを作り、それぞれが自律的に連携し、多様性を実現。その集合知によって社会課題を解決するというものだ。 そうした考え方に基づいて、福岡県大牟田市では、「会議シンギュラリティ」を開催したという。 専門性や個性を持ったAI同士が相互に議論し、複雑な課題に対して、さまざまな視点から解決策を提案。いまは少数意見だが、未来をとらえた場合には重要な意見であることなどが浮き彫りになったり、地域コミュニティでの議論では、相手を尊重するために批判が出にくかったりといった課題も解決できるという。生成AIが反対意見を述べることで、議論を活発化することができた実績も出ている。 その一方で、NTTの木村氏は、「LLMの大規模化競争が激化しており、Gemini UltraやGPT-4などでは、1回の学習に150~200億円かかっていると言われる。また、LLMの大規模化に伴うエネルギー消費の問題も深刻であり、GPT-3のような比較的小さいものであっても、1回学習で原発1基分の1時間の発電量を超える約1300mwhの電力が必要である。tsuzumiはこうした課題を解決できる」と述べた。 講演のなかで、NTTの木下氏は、「NTTの研究開発のDNAは、電気通信研究所の初代所長である吉田五郎が打ち出した『知の泉をくんで、研究し、実用化により、世に恵を具体的に提供しよう』というものであり、その姿勢をベースに、研究、開発、社会実装のサイクルを回していくことになる」とし、「開発では、いまは、IOWNとtsuzumiを確実に仕上げていくことが役割である。マーケットイン、プロダクトアウトの両面からのアプローチにより、価値がある社会実装を進める」と述べた。 NTTは、2019年~2023年の論文数では世界9位(日本では1位)であり、この順位を近いうちに5位に高め、将来的には1位に近づけていく姿勢を示した。 すでに、光通信や情報セキュリティ、神経機能解析、量子計算機では、世界1位や2位の論文数となっており、生成AIでは世界13位の特許出願数になっている。 海外研究所であるNTT Research Inc.では、2023年度は110件の研究論文を発表し、暗号分野における世界最先端の論文の14%をNTTグループが占めているという。
クラウド Watch,大河原 克行