マルチモーダルな眼を持つ『#Gemini（ジェミナイ）』時代が到来　by Google

ITジャーナリスト・ソーシャルメディアコンサルタント

2023/12/8(金) 15:51

KNNポール神田です。

生成AI周りの戦国時代まっしぐらとなっている様相だ。
昨日（2023年12月7日）Googleが発表したのがこの『Gemini（ジェミナイ）』だ。

Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズで提供する。「Pro」は同日から生成AIボット「Bard」の英語版に搭載される。また、「Nano」は同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載される。Pixel 8 Proでは、「レコーダー」アプリの要約強化や、「Gboard」のスマートリプライに展開されるとしているが、日本語対応は未定という。
https://www.itmedia.co.jp/news/articles/2312/07/news080.html

■新しいマルチモーダルAIモデル『Gemini』

『Gemini』がどういうものなのかは、次の動画を見るのがとてもわかりやすい…。英語であるが、幼稚園児のように素直な眼と心でご覧になってほしい…。

https://www.youtube.com/watch?v=UIZAiXYceBI

AIカメラが、机の上の『現象』を見て、コメントし続けていく様子は、まるで、知識はないけれども、生まれたてのAIを育てている親のような気さえしてくる。

ポスト・イットの紙に、イラストを描くだけで、それを見ながら、『Gemini』は『推論（インファレンス）』していくのだ。しかも対話型でチャットしながらだ。学習している画像で判断するのではなく、『推論』しながらAIが、自ら考えていることがよくわかる。

動画はさらに進んでいく…。

世界地図を『Gemini』に見せ、ゲームをしようと提案すると『どこの国かを当てるゲーム』をはじめた…。

『カンガルー、コアラ、リーフ』のアイコン（emoji）を出し、『オーストラリア』を指差すと『正解！』と表示されるのだ。

これは、単なるゲームアプリだったら、なんということでもない。しかし、世界地図を認識して、学習している要素から『ゲーム』として出題するというのが素晴らしい。各国の代表的な事象を、すでに学んでいるからできる芸当だ。

ボクたちもこの１年をかけて『生成AI』の成長を見続けてきているので、これらの芸当ができるのは理解できるが、彼らが独自の『眼』を持って、推論してくることに『感動』を覚えた！　『恐怖』と感じる人もいることだろう。

まさにAIが『心眼』を持ち、画像を判断する。
人の表情を読み取ったり、視点を分析するのも、Geminiにとっては単なる時間の問題でしかないだろう。そして最終的には、人類や人間にとっては、AIに心を読み取られていると感じるはずだ。

しかし、Gemini君、人類は歴史的に見て、『敵』には手厳しい。そして、好戦的だ。AIに心が読み取られると人類が感じると、手のひらを返したように虐待にまわるので、そこは、よく注意すべきだ。

さらに動画が進むと…、
今度はギターの絵を描くと、アコースティックのギターサウンドが流れる。
アンプを描き、コードをラインでつなぐと、エレクトリックなギターサウンドに変わる。さらに、ドラムを入れるとロックバンドのスタイルになり、パームツリーを描いたポストイットを貼ると今度はリゾートミュージックへと変わった。

この画像認識→推論→雰囲気→フィットした曲選び、という流れには、アルゴリズムやプログラムというよりも、『クリエイティブ』な要素として感じることができた。
『ChatGPT』に正しい正解を求めるよりも、ある条件を元にしながら、創造的なお話を語らせると、ものすごいクリエエイティビティを発揮するのと同様のことだ。

いや、それは『創造性＝クリエイティビティ』ではなく、あくまでも『創造的な推論』で、膨大な物語性のデータベースから、ユニークな物語を構築している様子が、人間には創造しているかのように見えるのだろう。

そもそも、人類のクリエイティビティという創造性は、時代を超えて学んで語り伝えられてきたことの片鱗のつむぎ合わせにすぎないのかもしれない。そうするとそれはAI が行っている推論と全くクリエイティブは同じことだと言える。

https://deepmind.google/technologies/gemini/#introduction

『Gemini』のすごいところは、『テキスト』『画像』などを接続していった『マルチモーダル』ではなく、最初の基本から『マルチモーダル』だということだ。
人類と同様に、周囲の世界を理解し捉え、あらゆる種類の入出力を判断し、『text』『code』『audio』『image』『video』を駆使して表現できるところだと
Google DeepCEO　デミス・ハサビス氏は語る。

https://www.youtube.com/watch?v=UIZAiXYceBI

Googleが遂に、Microsoftに対して、本気になって発表しはじめた気がした。
2023年の世界的なAI元年の終わりに、ふさわしい発表ではないだろうか？

Yahoo!ニュース

マルチモーダルな眼を持つ『#Gemini（ジェミナイ）』時代が到来　by Google

■新しいマルチモーダルAIモデル『Gemini』

神田敏晶の最近の記事

トピックス（主要）

オーサーアクセスランキング