Amazonのクラウドサービス部門であるAmazon Web Services(AWS)は、2024年12月2日からラスベガスで開催されている「re:Invent 2024」で、最新のAI基盤モデル「Amazon Nova」を発表しました。このモデルは、テキスト、画像、動画といった複数のデータ形式を扱えるマルチモーダルAIで、圧倒的なコストパフォーマンスを実現しています。
この新しいAIモデルは、AWSのクラウドサービス「Amazon Bedrock」を通じて利用可能で、独自のデータを用いたファインチューニングにも対応しています。さらに、他社の競合モデルと比較して最大75%も低コストで利用できる点が大きな特徴です。
「Amazon Nova」の特徴とモデルラインナップ
「Amazon Nova」は、理解(Understanding)モデルと、クリエイティブコンテンツモデルの2種類に大別されます。それぞれのモデルには異なる役割と用途があり、ユーザーの多様なニーズに応える構成になっています。
1.「Amazon Nova」理解(Understanding)モデル
理解(Understanding)モデルは、テキストや画像、動画から、テキストを生成するモデルです。具体的には、以下の4種類が提供されており、200以上の言語に対応できます。特に、英語や日本語、中国語など主要な言語では高い性能を発揮するそうです。
- Amazon Nova Micro:高速かつ低コストを追求したテキストモデル
- テキストのみを処理する低コスト・低レイテンシーのモデル
- 最大12万8000トークンのコンテキスト長
- テキスト要約や翻訳、コンテンツ分類、チャット、簡単な数学的推論とコーディングに対応
- 独自データによるファインチューニングとモデル蒸留が可能
- Amazon Nova Lite:低コストなマルチモーダルモデル
- テキストや画像、動画を超高速で処理できる、低コストのマルチモーダルモデル
- 最大30万トークンまでの入力を処理可能
- 1回のリクエストで複数の画像や最大30分の動画を分析可能
- テキストとマルチモーダルの両方でファインチューニングが可能
- Amazon Nova Pro:バランスの取れた高性能なマルチモーダルモデル
- 精度・速度・コストの最適なバランスを実現した高性能マルチモーダルモデル
- 最大30万トークンの入力に対応
- APIやツールを使用する複雑なワークフローを実行可能
- 特に財務文書の分析に優れており、1万5000行以上のコードベースも処理可能
- Amazon Nova Premier:より複雑な推論作業に対応できる最上位モデル
- 複雑な推論に対応可能
- カスタムモデルを抽出するために最適な教師モデルとしての使用を想定
これらのAmazon Nova Micro/Lite/Proは、Amazon Bedrock内の競合モデルと比較して75%も廉価であり、その低コストさ・高性能さが大きな特徴です。また、ユーザー側でのファインチューニングにも対応しており、独自のデータを学習させられます。
2.「Amazon Nova」クリエイティブコンテンツモデル
クリエイティブコンテンツモデルは、テキストや画像、動画から、画像・動画を生成するためのモデルです。現在、英語のプロンプトのみをサポートしています。
- Amazon Nova Canvas:テキストプロンプトから画像を生成
- スタジオ品質の画像を作成できる画像生成モデル
- スタイルやコンテンツを細かく調整可能
- Amazon Nova Reel:テキストプロンプトと画像から動画を生成
- 視覚的スタイルやテンポを調整でき、広告やエンターテインメント向けに最適
- 約6秒間の短編動画を作成可能(今後数ヶ月のうちに最大2分間の動画を作成できるようになると発表)
- 以下がAmazon Nova Reelで生成した動画のイメージ
両モデルの特徴:不適切なコンテンツの生成を防ぐ仕組みを整備
AWSによると、Amazon Novaの全モデルにはコンテンツモデレーション機能が搭載されており、不適切なコンテンツの生成を防ぐ仕組みが組み込まれています。
特に、クリエイティブコンテンツモデルには、生成された画像や動画にウォーターマークを付ける機能が備え付けてあり、AIの責任ある利用を奨励しています。
なお、現時点で利用可能なのはアメリカ国内のみで、主要リージョンはアメリカ東部(バージニア北部)です。また、価格設定はAWSの他のサービスと同様、従量課金制(pay-as-you-go)を採用しています。
今後の展望:2025年「Amazon Nova」に2種類の新モデルを追加予定
Amazonは、「Amazon Nova」として、2025年に以下の2つのモデルを追加する予定です。
- スピーチ・トゥ・スピーチ(Speech to Speech)モデル
- 音声入力を自然言語で理解し、トーンやリズムを解釈することで、より自然な人間らしい対話を実現予定
- ネイティブマルチモーダル・トゥ・マルチモーダルモデル
- 別名:「any-to-any」モダリティモデル
- テキストや画像、動画といった異なる形式のデータを、入力と出力の両方で処理することが可能
- 異なるモダリティ間でのコンテンツ変換やコンテンツ編集、すべてのモダリティを理解・生成できるAIエージェントの実現が可能
AWSはこれらの開発を「始まりに過ぎない」と述べており、2つのモデルが追加導入されることで、単一のモデルで幅広いタスクを実行できるようになり、アプリケーション開発がさらに簡略化されることを目指しています。そして、今後も顧客に価値を届けるためにイノベーションを継続していく姿勢を示しました。
まとめ:Amazon NovaでAI活用が新たな次元へ
Amazonが発表した「Amazon Nova」は、低価格で高性能なマルチモーダルAIとして、テキスト、画像、動画など多様なデータ形式を処理可能な次世代基盤モデルです。AWSの「Amazon Bedrock」を通じて提供され、柔軟なファインチューニングが可能で、最大75%のコスト削減を実現しています。
理解モデルとクリエイティブコンテンツモデルの2カテゴリに分かれ、企業や開発者の幅広いニーズに対応。2025年にはスピーチ・トゥ・スピーチモデルやマルチモーダル対応モデルの追加が予定され、さらなる進化が期待されます。
さらに、Amazonは生成AI分野への投資にも積極的です。実際に、OpenAIに並ぶ注目のAIスタートアップ「Anthropic」へ40億ドルの追加出資を行い、生成AIの開発を一層強化しています。この取り組みは、生成AIの未来をリードするAmazonの姿勢を示すものといえるでしょう。これからのAmazonの活躍に注目です。