Googleは2024年12月16日に、画像を混ぜ合わせて新たな画像を生成できる画像生成AIツール「Whisk」を発表しました。
従来は「サイバーパンクな〇〇」といったように、テキストプロンプトを入力する必要がありました。しかし、Whiskでは画像を混ぜ合わせて新しい画像を生成できるため、理想の画像を直感的に作成することが可能です。
このツールは現在日本から利用できず、米国のみで利用可能ですが、その革新的な機能に世界中から注目が集まっています。この記事では、Whiskの機能や活用例などについて紹介していきます。
Whiskとは:画像を組み合わせる新たな画像生成AI
Whiskは、プロンプト(指示文)を必要とせず、画像を組み合わせるだけで新しい画像を生成できる、画期的なAIツールです。このツールでは、以下の3つの要素に対応する画像を用意するだけで、直感的かつ簡単に画像を作成できます。
<Whiskで必要な3つの画像>
- Subject(主題): 生成する画像の中心となる対象
- Scene(場面): 主題を配置する背景や環境
- Style(スタイル): 全体のビジュアルトーンやアートのスタイル
Whiskの特徴:直感的な操作性
従来の画像生成AIは、テキストプロンプトを用いて生成内容を指示する形式が主流でした。しかし、Whiskでは画像を直接入力するため、複雑なテキスト説明なしに目的のイメージを作り出せます。また、希望に応じてテキストプロンプトを使うことも可能であり、柔軟性に優れている点が大きな魅力です。
Whiskを支える2つのAI技術
Whiskは、Googleが開発した2つの主要AIモデル「Gemini」「Imagen 3」によって、その性能を実現しています。
具体的には、まず生成AIモデル「Gemini」が、入力された画像から詳細なキャプションを自動生成。このキャプションを画像生成AI「Imagen 3」に渡し、高品質なビジュアルを生成しています。
このプロセスにより、ユーザーは詳細な指示文を作成する手間を省きつつ、高精細な画像を簡単に生成することが可能です。
Whiskの位置付け:新しいアイデア探索のためのツール
GoogleはWhiskを、従来型の画像編集ソフトとは異なる、新しいクリエイティブツールとして位置付けています。具体的には、ピクセル単位での緻密な編集を目指すものではなく、「迅速に視覚的なアイデアを探索するためのツール」です。
Whiskを活用することで、ユーザーは新しい創造的なアプローチで、さまざまな画像を生成・比較することができます。その中から最も気に入ったものを選んでダウンロードすることも可能なので、クリエイティブ作業の効率化を実現できるでしょう。
Whiskは特に次のような利用シーンでの活用が期待されています。
- クリエイターやデザイナーが新しいイメージを求める際のアイデア探索
- スピード感を重視したプロジェクトでのビジュアル生成
Whiskの使い方
Whiskを使って画像を生成する手順は、以下の通りです。
<Whiskの使い方>
- 主題(Subject)の画像をアップロード
- 場面(Scene)の選択
- スタイル(Style)の設定
- 詳細の入力
- 画像の生成と修正
1. 主題(Subject)の画像をアップロード
最初に、生成する画像の中心となる「主題(Subject)」の画像をアップロードします。
2. 場面(Scene)の選択
次に、生成される画像の背景や環境を決定します。ここでは、自分の好きな画像をアップロードすることもできますが、Whiskが提示するランダムな選択肢から1つを選ぶことも可能です。
3. スタイル(Style)の設定
続いて、画像の全体的なビジュアルトーンやアートスタイルを決めます。「90年代のアニメ風」や「モダンなアート」など、希望するスタイルに合う画像をアップロードしてください。また、スタイルに関しては、画像をアップロードする代わりにテキストプロンプトで指定することも可能です。
4. 詳細の入力
最後に、生成される画像の細部を指定します。テキスト入力により、画像の仕上がりに関する細かい指示を追加することが可能です。
5. 画像の生成と修正
アップロードした画像や入力したテキストをもとに、Whiskが画像をリミックスして生成します。
もし生成された画像に不満がある場合は、「REFINE」ボタンをクリックしてください。この機能を使用すると、希望の修正内容をテキストで入力することで、再度調整された画像を生成できます。
たとえば、「ピンクのストライプの入ったスーツ」と入力すると、修正が加えられた画像が出力されました。
Whiskの現状: 日本からの利用は不可
現在、Whiskは日本では利用できません。日本国内からのアクセスを試みると、利用不可の通知が表示されます。
もしWhiskの使用を希望する方は、ウェイティングリストへの登録を行うことで、利用開始の通知を受け取ることができます。
まとめ
Whiskは、画像生成AIの新たな可能性を切り開く画期的なツールです。
従来のテキストプロンプト中心の画像生成とは異なり、直感的かつ柔軟な操作で、高品質なビジュアルを簡単に作成できます。
また、さまざまな画像を簡単に生成できるため、クリエイターやデザイナーが効率よく新しいアイデアを探索できるでしょう。
現在は日本で利用できませんが、その革新性から正式な導入が待ち望まれています。Whiskのさらなる発展と、クリエイティブな未来への貢献に期待です。