近年、AI技術の進化は著しく、特にテキストだけでなく画像やドキュメントも理解できる「マルチモーダルAIモデル」が注目されています。
OpenAIのGPT-4o、AnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Proといったモデルがこの分野で競争を繰り広げていますが、新たな競争相手が登場しました。
それが、フランスの生成AIスタートアップMistral AIが、2024年11月18日に発表した「Pixtral Large」です。このモデルはテキスト処理だけでなく、画像やグラフ、ドキュメントの高度な認識能力を備えており、次世代のマルチモーダルAIとして注目されています。
今注目の「Pixtral Large」について、その性能を紹介していきます。
次世代マルチモーダルAIモデル「Pixtral Large」とは?
「Pixtral Large」は、Mistral AIが2024年7月に発表した大規模言語モデル「Mistral Large 2」をベースに開発されたマルチモーダルAIモデルです。
「Mistral Large 2」は多言語対応の大規模言語モデルで、特に高度なテキスト処理能力が評価されています。「Pixtral Large」はこの能力に加え、画像やドキュメントの認識能力を持つ点が最大の特徴で、実際に最大30枚の高解像度画像や長文のドキュメントを同時に処理することが可能です。
<Pixtral Largeの主な特徴>
- パラメーター数: 1240億 (Mistral Large 2から強化)
- コンテキストウィンドウ: 128,000トークン
- 対応可能なタスク:ドキュメント分析・グラフの解釈・画像認識・言語間の翻訳
また、Mistral AIは2024年9月に、同社初となるマルチモーダルAIモデル「Pixtral 12B」をリリースしています。今回、新モデル「Pixtral Large」を発表したことで、Mistral AIはOpenAIやGoogle、AnthropicがリードするマルチモーダルAI市場への本格参入を果たしたといえるでしょう。
Pixtral Largeの性能比較
Mistral AIは、Pixtral Largeの性能比較の結果についても公開しています。なお、モデルの比較対象は「Llama-3.2 90B」「GPT-4o」「Claude-3.5 Sonnet」「Gemini-1.5 Pro」です。業界標準のマルチモーダルAIベンチマークでテストされた結果、正確性において最高レベルの性能を発揮することがわかりました。
また、性能に関する具体的な数字も公開されています。Mathvista、MMMU、MM-MT Benchなどのベンチマークでは、GoogleのGemini 1.5 Proや、OpenAIのGPT-4o、AnthropicのClaude 3.5 Sonnetを一部で上回る、競争力のある性能を示しました。
Pixtral Largeの活躍事例
「Pixtral Large」は、Mistral AIが提供するプラットフォーム「Le Chat」を通じて利用可能で、実際の応答サンプルも公開されています。
<Pixtral Largeの活躍事例>
- レシート画像の読み取りと支払額の計算
- グラフデータの解析
- Mistralモデル採用企業の特定
1. レシート画像の読み取りと支払額の計算
最初のタスクは、ドイツ語と英語が混在するレシート画像をLe Chatにアップロードし、「コーヒーとソーセージの合計額と、18%のチップを含めた支払額を計算してください」という依頼をする例です。
この依頼に対して、Le Chatは画像から請求書の内容を分析し、アイテムごとの料金を整理して、合計支払額を「36.58 CHF」と算出しました。レシートはドイツ語と英語で書かれていましたが、Pixtral Largeはどれがコーヒーで、どれがソーセージなのかを認識できています。
<実際の回答(日本語に翻訳)>
18%のチップを含めた合計支払額を計算するには、次の手順に従ってください。
1.コーヒーとソーセージのコストを計算します。
1杯4.50 CHFのLatte Macchiatoが2杯なので9.00 CHF
Schweinschnitzelが1つ22.00 CHFなので22.00 CHF
コーヒーとソーセージの合計金額:9.00 CHF + 22.00 CHF = 31.00 CHF
2.18%のチップを計算します。
チップ:31.00 CHF * 0.18 = 5.58 CHF
3.合計金額にチップを追加します。
合計支払額:31.00 CHF + 5.58 CHF = 36.58 CHF
つまり、合計 36.58 CHF を支払う必要があります。
2. グラフデータの解析
複数モデルのトレーニング過程を示すグラフを解析し、「dark dragonの状況が悪化し始めたタイミング」を特定するタスクです。
Pixtral Largeの応答は以下の通り。どのグラフが「dark dragon」なのかを正しく認識できており、グラフの読み取りにも成功しています。
<実際の回答(日本語に翻訳)>
「dark-dragon-50」モデルのトレーニング損失は、1万ステップあたりで著しい不安定性を示し始めます。この時点で損失値に顕著なスパイクがあり、不安定性は続き、2万ステップあたりで別の大きなスパイクが発生します。これらのスパイクは、「dark-dragon-50」モデルのトレーニングプロセスで、1万ステップあたりから問題が発生し始めたことを示しています。
3. Mistralモデル採用企業の特定
3つ目は、企業ロゴの画像を解析し、「Mistral AIのモデルを利用している企業」を特定するタスクです。しっかりと画像を認識して、各企業について記述しています。
<実際の回答(日本語に翻訳)>
画像が示すように、Mistral AIが作成したモデルを使用している企業は次のとおりです。
1.BNPパリバ
2.brave
3.Cloudflare
4.CMA CGM
5.Front
Pixtral Largeは研究目的なら無料で利用可能
Pixtral Largeはテキスト用モデル「Mistral Large」とともに、Mistral Research Licenseで提供されています。このライセンスにもとづき、研究目的であれば無料で利用することが可能です。詳細は公式サイトを確認してください。
まとめ
Mistral AIの「Pixtral Large」は、テキスト処理だけでなく、画像やドキュメント認識にも優れた次世代マルチモーダルAIモデルとして、生成AI市場で高い注目を集めています。実際に、強力な画像認識能力や多言語対応、大規模なコンテキストウィンドウを備え、ビジネスから学術研究まで幅広い用途に対応可能です。
今後の進化がさらに期待されるMistral AIの技術をぜひ体験してみてください。