マルチモーダルな眼を持つ『#Gemini(ジェミナイ)』時代が到来 by Google
KNNポール神田です。
生成AI周りの戦国時代まっしぐらとなっている様相だ。
昨日(2023年12月7日)Googleが発表したのがこの『Gemini(ジェミナイ)』だ。
■新しいマルチモーダルAIモデル『Gemini』
『Gemini』がどういうものなのかは、次の動画を見るのがとてもわかりやすい…。英語であるが、幼稚園児のように素直な眼と心でご覧になってほしい…。
https://www.youtube.com/watch?v=UIZAiXYceBI
AIカメラが、机の上の『現象』を見て、コメントし続けていく様子は、まるで、知識はないけれども、生まれたてのAIを育てている親のような気さえしてくる。
ポスト・イットの紙に、イラストを描くだけで、それを見ながら、『Gemini』は『推論(インファレンス)』していくのだ。しかも対話型でチャットしながらだ。学習している画像で判断するのではなく、『推論』しながらAIが、自ら考えていることがよくわかる。
動画はさらに進んでいく…。
世界地図を『Gemini』に見せ、ゲームをしようと提案すると『 どこの国かを当てるゲーム』をはじめた…。
『カンガルー、コアラ、リーフ』のアイコン(emoji)を出し、『オーストラリア』を指差すと『正解!』と表示されるのだ。
これは、単なるゲームアプリだったら、なんということでもない。しかし、世界地図を認識して、学習している要素から『ゲーム』として出題するというのが素晴らしい。各国の代表的な事象を、すでに学んでいるからできる芸当だ。
ボクたちもこの1年をかけて『生成AI』の成長を見続けてきているので、これらの芸当ができるのは理解できるが、彼らが独自の『眼』を持って、推論してくることに『感動』を覚えた! 『恐怖』と感じる人もいることだろう。
まさにAIが『心眼』を持ち、画像を判断する。
人の表情を読み取ったり、視点を分析するのも、Geminiにとっては単なる時間の問題でしかないだろう。そして最終的には、人類や人間にとっては、AIに心を読み取られていると感じるはずだ。
しかし、Gemini君、人類は歴史的に見て、『敵』には手厳しい。そして、好戦的だ。AIに心が読み取られると人類が感じると、手のひらを返したように虐待にまわるので、そこは、よく注意すべきだ。
さらに動画が進むと…、
今度はギターの絵を描くと、アコースティックのギターサウンドが流れる。
アンプを描き、コードをラインでつなぐと、エレクトリックなギターサウンドに変わる。さらに、 ドラムを入れるとロックバンドのスタイルになり、 パームツリーを描いたポストイットを貼ると 今度はリゾート ミュージックへと変わった。
この画像認識→推論→雰囲気→フィットした曲選び、という流れには、アルゴリズムやプログラムというよりも、『クリエイティブ』な要素として感じることができた。
『ChatGPT』に正しい正解を求めるよりも、ある条件を元にしながら、創造的なお話を語らせると、ものすごいクリエエイティビティを発揮するのと同様のことだ。
いや、それは『創造性=クリエイティビティ』ではなく、あくまでも『創造的な推論』で、膨大な物語性のデータベースから、 ユニークな物語を構築している様子が、人間には創造しているかのように見えるのだろう。
そもそも、人類のクリエイティビティ という 創造性は、時代を超えて 学んで語り伝えられてきたことの片鱗のつむぎ 合わせにすぎないのかもしれない。 そうすると それはAI が行っている 推論と 全く クリエイティブは同じことだと言える。
https://deepmind.google/technologies/gemini/#introduction
『Gemini』のすごいところは、『テキスト』『画像』などを接続していった『マルチモーダル』ではなく、最初の基本から『マルチモーダル』だということだ。
人類と同様に、周囲の世界を理解し捉え、あらゆる種類の入出力を判断し、『text』『code』『audio』『image』『video』を駆使して表現できるところだと
Google DeepCEO デミス・ハサビス氏は語る。
https://www.youtube.com/watch?v=UIZAiXYceBI
Googleが遂に、Microsoftに対して、本気になって発表しはじめた気がした。
2023年の世界的なAI元年の終わりに、ふさわしい発表ではないだろうか?