2024年12月11日、Googleは次世代AIモデルファミリー「Gemini 2.0」を発表しました。この最新モデルは、「エージェント時代」を象徴するものであり、AIがユーザーの指示に応じて考え、行動し、課題を解決する能力を大幅に強化しています。
同時に、応答速度を重視した新モデル「Gemini 2.0 Flash」の試験運用版もリリースされ、すべてのGeminiユーザーが利用可能となりました。その性能は、現行の最上位モデル「Gemini 1.5 Pro」の2倍の応答速度で、各種ベンチマークで1.5 Proを上回っています。
さらに、リサーチアシスタント機能「Deep Research」も新たに提供され、Gemini Advancedプランのユーザーが利用できるようになりました。この新機能は、複雑なトピックを調査し、短時間でレポートを生成することを可能にします。
この記事では、新モデル「Gemini 2.0 Flash」の性能をはじめ、Googleが行った発表についてわかりやすく解説します。
発表①: Gemini 2.0と新モデル「Gemini 2.0 Flash」の提供開始
2024年12月11日に発表された「Gemini 2.0」は、Google DeepMindが開発した最新のAIモデルであり、複雑な問題の解決を目指して設計されています。そして、この新しいモデルファミリーの第一弾として、試験運用版「Gemini 2.0 Flash」が一般公開されました。
「Gemini 2.0 Flash」は、低い遅延と高い性能を両立させたAIモデルです。このモデルは、「Gemini 1.5 Flash」をもとに構築されており、高い処理速度を維持しつつ、各種パフォーマンスが向上しています。実際、主要なベンチマークテストでは、2.0 Flashが1.5 Proを超える性能を発揮し、2倍の速度で処理を実行できることが確認されています。
また、新たに追加された機能として、テキストと連携した画像生成や、操作可能なテキスト読み上げ(TTS)による多言語音声のサポートがあります。さらに、Google検索やコードの実行、サードパーティのユーザー定義関数など、さまざまなツールをネイティブに呼び出すことができるようになりました。これにより、より高度な操作が可能となり、さまざまな用途に対応できるようになっています。
Gemini 2.0 Flashの性能
「Gemini 2.0 Flash(Experimental)」は、従来の「Gemini 1.5 Flash」や「1.5 Pro」モデルを大幅に上回る性能を発揮しています。以下が、主な性能の比較です。
- コード生成 (Natural2Code)
- Gemini 1.5 Pro: 85.4%
- Gemini 2.0 Flash Experimental: 92.9% (約7.5ポイント向上)
- 高度な数学問題 (HiddenMath)
- Gemini 1.5 Pro: 52.0%
- Gemini 2.0 Flash Experimental: 63.0% (約11ポイント向上)
- マルチモーダル理解 (MMMU)
- Gemini 1.5 Pro: 65.9%
- Gemini 2.0 Flash Experimental: 70.7% (約4.8ポイント向上)
これらの結果から、「Gemini 2.0 Flash」は、優れた推論能力、高度なマルチモーダル処理能力、そして高速な応答性能を実現していることがわかります。
Gemini 2.0 Flashの利用方法
「Gemini 2.0 Flash」は現在、Google AI StudioとVertex AIのGemini APIを通じて開発者向けに提供されています。すべての開発者がマルチモーダル入力とテキスト出力を利用でき、早期アクセスパートナーにはテキスト読み上げや画像生成機能も提供されています。なお、2025年1月には一般公開が予定されており、さらに大規模なモデルが利用できるようになる見込みです。
また、一般ユーザーはGeminiアプリを使って「Gemini 2.0 Flash」の試験運用版を試すことができます。具体的には、デスクトップやモバイル版で、ドロップダウンメニューからモデルを選んで利用することが可能です。
さらに、2025年初頭には「Gemini 2.0 Flash」が、Google検索などの他のGoogle製品にも統合される予定です。
発表②: 新機能「Deep Research」の発表
「Deep Research」は、Gemini Advancedプランのユーザー向けに提供される新しいリサーチエージェント機能です。この機能は、AIがユーザーの代わりに調査を行い、結果をレポート形式で提供する高度なサポートを提供します。
具体的には、複雑な調査タスクを自動化するリサーチエージェントとして、指定されたテーマに基づいて、複数のステップにわたるWeb検索や情報整理を行い、最終的に数分でレポートを生成。このレポートには参考リンクが含まれており、情報源に簡単にアクセスできます。そのため、学術研究や市場分析、ビジネス戦略の立案など、さまざまなシナリオで活用することが可能です。
【Deep Researchの特徴】
- 複数ステップの調査を自動化: AIが一連の検索を行い、関連する情報を抽出・整理・要約
- レポート形式で結果を提供: 参考URLや出典付きで論理的に整理されたレポートを生成
- 1Mトークンのコンテキスト対応: 幅広い情報を収集し、包括的な知見を提供
「Deep Research」の利用方法
現在、「Geminiアプリ(ウェブ版)」でGemini Advancedプランに加入しているユーザーだけが、「Deep Research」を試すことができます。ただし、現時点では日本語には対応していないため、利用する際にはGoogleアカウントの言語設定を英語(United Statesなど)に変更する必要があります。
【Deep Researchの利用手順】
- Googleアカウントの言語設定ページにアクセス
- 「Preferred Language」を「English(United States)」に変更
- Geminiアプリ上で「Deep Research」を選択
- 調べたいトピックを入力してレポート生成を実行
発表③: エージェント時代の実現に向けたプロジェクト
GoogleはAIエージェント技術の実用化を目指し、人々のタスクを支援する複数のプロトタイプを開発しています。この発表では、いくつかの注目すべきプロジェクトの進捗が共有され、それぞれのプロジェクトがエージェント技術の可能性を探求していることがわかります。
【Googleが進行中のプロジェクト】
- Project Astra: 現実世界でマルチモーダル理解を実現
- Project Mariner: 複雑なタスクを支援するエージェント
- Jules: 開発者向けのAIエージェント
- ゲーム分野でのエージェント開発
Project Astra: 現実世界でマルチモーダル理解を実現
「Project Astra」は、日常生活や業務における支援を目指したAIアシスタントのプロジェクトです。このプロジェクトでは、以下のような特徴的な改善が行われています。
- 対話の改善: 複数の言語や混合言語での会話が可能となり、アクセントや特殊な単語への理解も改善
- 新しいツールの活用: Google検索、Googleレンズ、Googleマップなどのツールと統合し、さまざまなタスクに対応
- 記憶力の強化: ユーザーの管理のもと情報を記憶する機能が拡張され、セッション中に最大10分間の記憶保持が可能
- 応答速度の向上: ストリーミング機能と音声理解の改善により、ほぼ人間と同じ速度で自然な会話が可能
また、Googleは「Project Astra」をAndroid端末で提供しており、限られたテスターを対象にプロトタイプのARグラスでの試験も開始する予定です。
Project Mariner: 複雑なタスクを支援するエージェント
「Project Mariner」は、ブラウザを基点としたエージェントの研究プロトタイプです。以下のような特徴を備えています。
- ウェブタスクの高度化: テキストやコード、画像、フォームなどのウェブページ上の情報を理解し、ユーザーに代わってタスクを実行
- 安全性の確保: アクティブなタブ内でのみ操作を行い、購入などの重要なアクションでは必ずユーザーに確認を求める設計
- 高い性能を発揮: 「WebVoyager」ベンチマークで83.5%という高水準のタスク完了率を達成
現在、試験運用版のChrome拡張機能を介して限定的にテストが行われています。このプロジェクトはまだ初期段階にありますが、ブラウザ上でのエージェント活用の可能性を示す重要なステップとなるでしょう。
Jules: 開発者向けのAIエージェント
「Jules」は、GitHubワークフローに統合される開発支援用のAIエージェントです。このエージェントは以下のような役割を担います。
- コード生成: 開発者の指示に基づき、コードの作成を自動化
- タスク計画と実行: 課題への取り組みや計画策定、さらには実行までサポート
- 統合の簡便化: GitHubと連携し、開発プロセス全体を効率化
Googleは「Jules」を通じて、AIエージェントがコーディングにとどまらず、幅広い業務支援に活用できる可能性を探求しています。
ゲーム分野でのエージェント開発
Googleはゲームを利用して、AIエージェントの能力を強化する研究も行っています。「Gemini 2.0」を基盤とした仮想世界向けエージェントは、以下のような機能を持っています。
- ゲーム環境の推論: 画面上の動きや状況を理解し、次の行動をリアルタイムで提案
- 多様なゲームでのテスト: Supercellなどのゲーム開発会社と協力し、戦略ゲームやシミュレーションゲームでエージェントの能力を検証中
- 知識共有: Google検索を利用してウェブ上の豊富なゲーム知識をユーザーに提供
これらのエージェントは、ゲーム内のコンパニオンとしてだけでなく、教育やエンターテインメント分野への応用も期待されています。さらに、AIの空間推論能力をロボット工学に適用する試みも行われており、現実世界での支援能力を備えたエージェントの開発が進行中です。
まとめ: Gemini 2.0が示す未来
Googleが発表した「Gemini 2.0」は、AIの新たな可能性を切り開く重要なマイルストーンです。
「Gemini 2.0 Flash」は、応答速度を重視し、より迅速な処理を実現しています。また、「Deep Research」は、高度な調査能力を備えたリサーチエージェントとして、ユーザーの調査作業を大いにサポートするでしょう。
加えて、Googleは「エージェント時代」の実現に向けて、さまざまなプロジェクトを進めています。これらの取り組みは、AIが単なるツールを超えて、「考え、行動するパートナー」へと進化していく重要なステップです。
今後もGoogleは、安全性と倫理を最優先にしながら、AI技術を活用して新たな価値を提供し続けるでしょう。