Yahoo!ニュース

人工知能学会全国大会から見る日本の人工知能研究の最先端

鳥海不二夫東京大学大学院工学系研究科教授
AIが考える浜松で開かれる人工知能学会全国大会(ChatGPT作成)

2024年5月28~31日の日程で,人工知能学会全国大会が静岡県浜松市で開かれます.日本における人工知能研究者の集まりとしては最大級の学会です.例年数千人の参加者があり,今年も論文発表件数は1000件近くあり日本における人工知能研究の最先端を探るには良い機会になると期待されます.

明日(5月28日)から開催ということで,学会プログラムはすでにネット上で公開されています.せっかくなので学会発表をデータ分析して,今の日本の人工知能研究の最先端を俯瞰した視点から眺めてみたいと思います.

AI関連のイベントでいえば,2024年5月22~24日にAI・人工知能EXPO【春展】が開かれましたが,こちらはビジネス向けですでに実用化している商品の紹介が中心でした.一方,学会の全国大会は論文発表の場であり,まだ実用化はしていない研究段階の技術が発表される場といえるでしょう.つまり,ここで発表されている研究が数年後の日本の人工知能業界を担う技術になる可能性を秘めているということになります.もちろん全部が全部そうなわけでもないですが.

データ収集

さっそく,2024年度の人工知能学会全国大会で発表される論文を分析してみましょう.WEB上のプログラムのページからスクレイピングしてデータを収集しました.

その結果,2,332人の著者による996件の論文情報を取得できました.これらのデータについて分析をしてみたいと思います.ただし,このデータはあくまでもWEB上のプログラムからスクレイピングして収集したものですので,実際に発表される論文に対して多少の誤差が混じっているかもしれないことはご了承ください.

論文タイトルの分析

まずは論文のタイトルから流行の研究を探ってみたいと思います.ここでは全発表タイトルを形態素解析して,頻出単語を抽出しました.

単語数に基づくワードクラウドを作成してみた結果がこちらです.

論文タイトルに含まれる単語のワードクラウド(筆者作成)
論文タイトルに含まれる単語のワードクラウド(筆者作成)

データ,モデル,生成,AI,学習といったいかにも人工知能研究という単語が多数出現しています.特に,「生成」が大きく出ているのは昨年来の生成AIブームの影響が大きいのではないでしょうか.

そこで,生成AIの影響で発表タイトルがどう変化したのかを見るために,2023年と2024年で各単語が論文に使われている率がどのように変化しているのかを調べてみました.

タイトル出現単語の2023年からの変化(筆者作成)
タイトル出現単語の2023年からの変化(筆者作成)

この図は,横軸を2023年の人工知能学会全国大会の論文タイトルにおける出現確率,縦軸を2024年の論文タイトルでの出現確率として,各単語をプロットしたものになります.斜めの線に対して上にある単語は2024年度の出現率が2023年度を上回った物,下にある単語が2024年の出現率が2023年を下回った単語を示しています.

これを見ると,モデル,データなど人工知能研究において基本的な単語自体が2023年より増加していますが,やはり「生成」「言語モデル」などの単語も増加が著しいことが分かります.ちなみに,「大規模」は「大規模言語モデル」が「大規模」と「言語モデル」に分かれた結果と思われます.

一方で,「学習」や「予測」については2023年よりも出現率が減少していることが分かりました.学習と言えば人工知能の花ですが,それが少し減少したというのは興味深いところです.生成AI時代では学習系の研究よりも生成AIの評価や応用研究が活性化していることの表れかもしれません.

そこで,データが取れた2018年からの主要な人工知能に関する単語の出現率の変化を調べてみました.

関連単語の長期変化(筆者作成)
関連単語の長期変化(筆者作成)

これを見ると,「言語モデル」や「生成」が含まれる論文が2022年ごろから急激に増えており,生成AIの研究が盛んになってきたことが分かります.

一方で,「深層学習」「機械学習」「強化学習」については,変化は大きくないものの減少気味である可能性が示唆されます.特に「深層学習」は出現率ベースで半減しています.もちろんこれだけで結論を出せるものではありませんが,人工知能研究は深層学習ブームから生成AIブームへ大きく舵を切ったと言えるのかもしれません.

ここで,せっかく2018~2024年までのデータを取得したので,他の年に比べて2024年に,特に特徴的だった単語を抽出してみましょう.ここでは,シンプルにTF-IDFを利用して特徴語を抽出しています.

2024年の特徴語(筆者作成)
2024年の特徴語(筆者作成)

特徴語を見ても,言語モデル,プロンプトといった単語が特徴語として抽出されました.プロンプトなどは生成AI以前にはこの分野では使われていない単語ですので,研究の方向性が変化したことがよくわかります.また,「基盤」も「基盤モデル」からだと思われますので,大規模言語モデル,基盤モデルに注目が集まっている証拠といえそうです.

以上,論文タイトルの分析から,やはり研究レベルでも言語系生成モデルの研究が注目されていることが分かりました.

発表者

次に,研究発表数の多い研究者の一覧を見てみましょう.ここでは,共著の論文数が多いトップ29を出しています.

共著の論文が多いという事はそれだけ多くの研究に関わっているという事で,日本の人工知能研究に深くコミットしている研究者と言えるでしょう.

論文数ランキング(筆者作成)
論文数ランキング(筆者作成)

論文数第1位はお茶の水女子大学の小林一郎先生でした.2位にはAI手塚治虫等で有名な慶應義塾大学の栗原聡先生,3位にはAI業界では知らない人のいない東京大学の松尾豊先生が入っており,人工知能研究の第一人者が多数論文を発表していることが分かります.

この中で,中川慧さん以外は大学教員ですので,大学で人工知能の研究をしたい方はこれらの先生方に注目するのもよいかもしれません.

ちなみに,狩野芳伸先生と竹内勇剛先生は静岡大学の先生です.地元パワー強し.そして,大学に所属していないのにこれだけ論文発表されている中川慧さんがすごすぎる.

次に,研究のハブになりそうな研究者を明らかにしてみましょう.ここでは,共同研究を行っている組織の数でランキングを作ってみました.その結果がこちらです.

共同研究先ランキング(筆者作成)
共同研究先ランキング(筆者作成)

このランキングに掲載されている研究者は共同研究を多数行っている研究者であると言えるでしょう.共同研究先を探している企業の方などは注目してみてもよいかもしれません.

なお,ランキングに掲載されている研究者の発表を知りたい方は,人工知能学会全国大会ページの講演検索をご利用ください.

発表者の所属機関

最後に,どのような組織で研究がおこなわれているのかを分析するために,発表者の所属機関を分析してみました.ただし,所属機関の書き方は論文著者に任せられているため,同じ組織でも書き方が微妙に異なっていたりします(東京大学と東大等).そこで,出来る限り名寄せをしてみましたが,完全ではなさそうなので多少の誤差があることはご留意いただければと思います.

組織別論文発表数(筆者作成)
組織別論文発表数(筆者作成)

論文発表数ベスト10の組織がこちらです.東京大学が101件でぶっちぎりのトップとなりました.全体の10%の論文で東京大学に所属する研究者が著者になっていることになります.2位の慶應義塾大学に対してダブルスコアを付けていることからも,その論文の多さが分かります.そのほかの組織でも,ベスト10はすべて大学でした.やはり学会は研究発表の場ということもあり,研究機関でもある大学が論文を数多く発表していることが分かります.大学でAIの研究をしたい!という方は,是非こちらを参考にしてみてください.

では,企業の発表はどうだったでしょうか.企業に限定したトップ10を調べてみました.ただし,企業は大学よりもさらに名寄せが難しく一部名寄せに失敗してカウントに失敗している企業があることにご注意ください.

企業別論文発表数(筆者作成)
企業別論文発表数(筆者作成)

これより,日立製作所,日本電信電話株式会社(NTT),野村アセットマネジメント株式会社,日本電気株式会社(NEC),株式会社サイバーエージェントの研究が多いことが分かります.メーカー,通信会社,金融,広告など幅広い分野の企業が論文発表していることが分かりました.

企業に就職しても人工知能研究を続けたいと考えている学生さんは,こちらを参考に就職する企業を検討してみてもよいのではないでしょうか.

おまけ

最後に,おまけとして「AI」と呼ぶか「人工知能」と呼ぶか問題に踏み込んでみたいと思います.単に英語か日本語かだけの違いで意味は全く同じ訳ですが,人工知能学会全国大会ではどちらの利用が多いか調べてみました.結果がこちら.

論文タイトル中のAIと人工知能の利用率(筆者作成)
論文タイトル中のAIと人工知能の利用率(筆者作成)

2018年時点ではAIと人工知能がほぼ同じくらいの利用率だったのですが,その後AIの利用率が大幅に増加し,人工知能の利用率が減少していることが分かります.

どうやら,人工知能学会の論文タイトル中では「AI」が「人工知能」を大幅に上回っているようです.AIの方が書きやすいからですかね?

おわりに

以上,2024年度人工知能学会全国大会から日本の人工知能研究の現状について分析してみました.

やはり生成AIブームで研究もそちらにシフトしているものが多い様子が分かります.自然言語系の研究発表が多く,深層学習系の研究は一段落したといったところでしょうか.もちろん,あくまでもWEB上のプログラムから取ったデータをざっくり分析しただけですので,実際に聞いてみないと面白い研究がどこにあるのかはわかりません.流行の研究を追いかけるのが良い,というわけでもないですしね.

実際プログラムを見ると,本当に多彩な論文がそろっています.もちろん1000件近い論文発表をすべて聞けるわけはないのですが,参加予定の方は興味のある論文だけではなく,普段は接しないタイプの論文発表も楽しみにしていただくとよいのではないでしょうか.

ちなみに,筆者は論文発表もさることながら,静岡県浜松市での開催ということで,どちらかと言えば鰻とさわやかを楽しみにしています.

というわけで,5月28日から静岡県浜松市で開催される2024年度人工知能学会全国大会,現地とオンラインのハイブリッドで開催いたしますので,ご興味があれば是非ご参加ください.

ただし,

参加申込が2,500名を越えた場合,締め切り前であっても受付打ち切りあるいは当日受付の制限等をさせていただく可能性がございますので,お早めにお申し込みください.

とのことですので,参加登録されていないけど参加してみたい,という方はご注意を.

東京大学大学院工学系研究科教授

2004年東京工業大学大学院理工学研究科機械制御システム工学専攻博士課程修了(博士(工学)),2012年より東京大学大学院工学系研究科准教授,2021年より現職.計算社会科学,人工知能技術の社会応用などの研究に従事.計算社会科学会副会長,情報法制研究所理事,人工知能学会編集委員長.人工知能学会,電子情報通信学会,情報処理学会,日本社会情報学会,AAAI各会員.「科学技術への顕著な貢献2018(ナイスステップな研究者)」

鳥海不二夫の最近の記事