2024年12月19日、Googleは新たな推論AIモデル「Gemini 2.0 Flash Thinking」を発表しました。
このモデルは、同月11日に公開された「Gemini 2.0 Flash」を基盤に開発されたもので、「思考プロセス」の生成に特化したトレーニングを受けています。その結果、従来のモデルと比較して高度で洗練された推論能力を獲得しました。
この記事では、新モデル「Gemini 2.0 Flash Thinking」の特長や性能について詳しく解説します。
Gemini 2.0 Flash Thinkingとは?
「Gemini 2.0 Flash Thinking」は、問題解決におけるAIの思考過程を可視化できる革新的なモデルです。
従来のAIはデータの解析や応答生成に特化していましたが、このモデルは「どのように考えたのか」を示すことが可能です。これにより、AIの論理的なプロセスをユーザーが追跡・理解できるようになっています。
【Gemini 2.0 Flash Thinkingの特徴】
- 思考過程の可視化:Gemini 2.0 Flash Thinkingは、問題を解決する際に「どのようなプロセスを経て答えに至ったのか」を明示します。そのため、ユーザーはAIの推論について、その論理性を確認・検証することが可能です。
- 高度な推論能力:最新モデルであるGemini 2.0 Flashモデルよりも高い推論能力を持ちます。マルチモーダルなデータ(画像や動画など)の処理、推論、コーディングに最適とのこと。
- 制限と使用環境:現在、Google AI Studioで「Gemini 2.0 Flash Thinking Experimental」として公開されています。ただし、入力は3万二千トークン、出力は8000トークンに制限されており、入力形式はテキストと画像のみ、出力はテキストのみです。
なお、次世代AIモデルファミリー「Gemini 2.0」や、新モデル「Gemini 2.0 Flash」について詳しく知りたい方は、次の記事をご覧ください。
Gemini 2.0 Flash Thinkingのデモ
Google AI Studioのリーダーであるローガン・キルパトリック氏は、Gemini 2.0 Flash Thinking の性能を試すために、次のような少しひねりのあるパズルを出題しました。具体的には、「『7』『9』『11』『13』という4つのビリヤードボールの画像を見せ、『どうすれば3つだけを使用して合計30にできますか?』と質問。
この問題に取り組む中で、Gemini 2.0 Flash Thinkingはまず、足し算によるすべての組み合わせを試しました。しかし、どの組み合わせでも合計が30にならないことに気付きます。
そこでモデルは新たなアプローチを試みました。「ビリヤードボールの数字を別の角度から解釈できないか?」と考え始め、「数字を上下逆にできる?9を逆転させれば6に見える」と思考。「6」「11」「13」という3つを足し合わせることで30になると、正しくパズルを解くことができました。
Gemini 2.0 Flash Thinkingの性能
実際に、AIの性能を人間にブラインドテストさせるChatbot Arenaでは、OpenAIのo1-previewやGPT-4oをはじめとしたモデルを抜いて、Gemini 2.0 Flash Thinkingが1位に輝きました。
まとめ
「Gemini 2.0 Flash Thinking」は、単なる回答生成に留まらず、その背後にある論理的なプロセスを示すことで、AIの透明性と信頼性を高めています。これにより、複雑な問題解決や高度な推論が必要なタスクにおいて、AIの利用価値がさらに広がることが期待されます。
興味がある方は、Google AI Studioを通じてモデルを試してみてはいかがでしょうか?また、次世代AIモデルファミリー「Gemini 2.0」や、新モデル「Gemini 2.0 Flash」について詳しく知りたい方は、次の記事をご覧ください。