Yahoo!ニュース

マルチモーダルな眼を持つ『#Gemini(ジェミナイ)』時代が到来 by Google

神田敏晶ITジャーナリスト・ソーシャルメディアコンサルタント
出典:Google Gemini

KNNポール神田です。

生成AI周りの戦国時代まっしぐらとなっている様相だ。
昨日(2023年12月7日)Googleが発表したのがこの『Gemini(ジェミナイ)』だ。

Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズで提供する。「Pro」は同日から生成AIボット「Bard」の英語版に搭載される。また、「Nano」は同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載される。Pixel 8 Proでは、「レコーダー」アプリの要約強化や、「Gboard」のスマートリプライに展開されるとしているが、日本語対応は未定という。
https://www.itmedia.co.jp/news/articles/2312/07/news080.html

■新しいマルチモーダルAIモデル『Gemini』


『Gemini』がどういうものなのかは、次の動画を見るのがとてもわかりやすい…。英語であるが、幼稚園児のように素直な眼と心でご覧になってほしい…。


https://www.youtube.com/watch?v=UIZAiXYceBI

AIカメラが、机の上の『現象』を見て、コメントし続けていく様子は、まるで、知識はないけれども、生まれたてのAIを育てている親のような気さえしてくる。

出典:Google Gemini
出典:Google Gemini

ポスト・イットの紙に、イラストを描くだけで、それを見ながら、『Gemini』は『推論(インファレンス)』していくのだ。しかも対話型でチャットしながらだ。学習している画像で判断するのではなく、『推論』しながらAIが、自ら考えていることがよくわかる。

出典:Google Gemini
出典:Google Gemini

動画はさらに進んでいく…。

世界地図を『Gemini』に見せ、ゲームをしようと提案すると『 どこの国かを当てるゲーム』をはじめた…。

『カンガルー、コアラ、リーフ』のアイコン(emoji)を出し、『オーストラリア』を指差すと『正解!』と表示されるのだ。

これは、単なるゲームアプリだったら、なんということでもない。しかし、世界地図を認識して、学習している要素から『ゲーム』として出題するというのが素晴らしい。各国の代表的な事象を、すでに学んでいるからできる芸当だ。

ボクたちもこの1年をかけて『生成AI』の成長を見続けてきているので、これらの芸当ができるのは理解できるが、彼らが独自の『眼』を持って、推論してくることに『感動』を覚えた! 『恐怖』と感じる人もいることだろう。

まさにAIが『心眼』を持ち、画像を判断する。
人の表情を読み取ったり、視点を分析するのも、Geminiにとっては単なる時間の問題でしかないだろう。そして最終的には、人類や人間にとっては、AIに心を読み取られていると感じるはずだ。

しかし、Gemini君、人類は歴史的に見て、『敵』には手厳しい。そして、好戦的だ。AIに心が読み取られると人類が感じると、手のひらを返したように虐待にまわるので、そこは、よく注意すべきだ。

出典:Google Gemini
出典:Google Gemini

さらに動画が進むと…、
今度はギターの絵を描くと、アコースティックのギターサウンドが流れる。
アンプを描き、コードをラインでつなぐと、エレクトリックなギターサウンドに変わる。さらに、 ドラムを入れるとロックバンドのスタイルになり、 パームツリーを描いたポストイットを貼ると 今度はリゾート ミュージックへと変わった。

この画像認識→推論→雰囲気→フィットした曲選び、という流れには、アルゴリズムやプログラムというよりも、『クリエイティブ』な要素として感じることができた。
『ChatGPT』に正しい正解を求めるよりも、ある条件を元にしながら、創造的なお話を語らせると、ものすごいクリエエイティビティを発揮するのと同様のことだ。

いや、それは『創造性=クリエイティビティ』ではなく、あくまでも『創造的な推論』で、膨大な物語性のデータベースから、 ユニークな物語を構築している様子が、人間には創造しているかのように見えるのだろう。


そもそも、人類のクリエイティビティ という 創造性は、時代を超えて 学んで語り伝えられてきたことの片鱗のつむぎ 合わせにすぎないのかもしれない。 そうすると それはAI が行っている 推論と 全く クリエイティブは同じことだと言える。

出典:Google Gemini
出典:Google Gemini


https://deepmind.google/technologies/gemini/#introduction

『Gemini』のすごいところは、『テキスト』『画像』などを接続していった『マルチモーダル』ではなく、最初の基本から『マルチモーダル』だということだ。
人類と同様に、周囲の世界を理解し捉え、あらゆる種類の入出力を判断し、『text』『code』『audio』『image』『video』を駆使して表現できるところだと
Google DeepCEO デミス・ハサビス氏は語る。


https://www.youtube.com/watch?v=UIZAiXYceBI

Googleが遂に、Microsoftに対して、本気になって発表しはじめた気がした。
2023年の世界的なAI元年の終わりに、ふさわしい発表ではないだろうか?

ITジャーナリスト・ソーシャルメディアコンサルタント

1961年神戸市生まれ。ワインのマーケティング業を経て、コンピュータ雑誌の出版とDTP普及に携わる。1995年よりビデオストリーミングによる個人放送「KandaNewsNetwork」を運営開始。世界全体を取材対象に駆け回る。ITに関わるSNS、経済、ファイナンスなども取材対象。早稲田大学大学院、関西大学総合情報学部、サイバー大学で非常勤講師を歴任。著書に『Web2.0でビジネスが変わる』『YouTube革命』『Twiter革命』『Web3.0型社会』等。2020年よりクアラルンプールから沖縄県やんばるへ移住。メディア出演、コンサル、取材、執筆、書評の依頼 などは0980-59-5058まで

神田敏晶の最近の記事