Alibabaが新しい視覚推論AIモデル「QVQ-72B-Preview」を公開

2024年も終盤に差し掛かる中、中国の大手テクノロジー企業であるAlibabaは、新たなAIモデル「QVQ-72B-Preview」を発表しました。このモデルは、画像や動画といった視覚情報を高度に解釈し、論理的な結論を導き出す能力を持つオープンウェイトの視覚推論AIモデルです。

本モデルは、いくつかのベンチマークでOpenAIの最新モデル「o1」に迫る性能を示しており、今後の活躍が期待されています。この記事では、QVQ-72B-Previewの特徴や性能、および活用例について詳しく解説します。

QVQ-72B-Previewとは？
QVQ-72B-Previewの性能
QVQ-72B-Previewの応答例
1. 1.ペリカンを数えるタスク
2. 2.恐竜の高さを推定するタスク
QVQ-72B-Previewの限界
今後の展望：AGIの実現に向けたモデル開発の加速
まとめ

QVQ-72B-Previewとは？

🎄Happy holidays and we wish you enjoy this year. Before moving to 2025, Qwen has the last gift for you, which is QVQ!

🎉 This may be the first open-weight model for visual reasoning. It is called QVQ, where V stands for vision. It just reads an image and an instruction, starts… pic.twitter.com/BX1ORiltIf
— Qwen (@Alibaba_Qwen) December 24, 2024

QVQ-72B-Previewは、AlibabaのAI研究チーム「Qwen」によって開発された次世代の視覚推論AIモデルです。このモデルは、視覚情報とテキストプロンプトを組み合わせ、複雑な論理的結論を導き出すことを目的としています。特に以下の点で注目されています。

視覚理解の統合: 単に画像内のオブジェクトを認識するだけでなく、それらの相互関係を文脈に基づいて理解し、推論を行うことが可能です。
段階的な推論プロセス: 問題解決の過程をユーザーに示しながら、ストリーミング形式で回答を生成します。
多様な応用分野: 医療診断や教育、家具配置シミュレーションなど、多岐にわたる分野での活用が期待されています。

本モデルは、前モデル「Qwen2-VL-72B-Instruct」の進化版であり、視覚情報に基づく分析能力が大幅に強化されています。また、QVQ-72B-PreviewはHugging Faceで公開されており、誰でもアクセス可能です。

QVQ-72B-Previewの性能

QVQ-72B-Previewは、多くのベンチマークテストで高い性能を記録しています。

MMMU(Multimodal Model Understanding): 視覚関連の総合的な理解と推論能力を評価するテストセットにおいて、70.3というスコアを達成しました。前モデルのQwen2-VLを大幅に上回る性能を示しています。
MathVista: グラフや図表を用いた論理的および代数的推論において、71.4という高い精度を記録しています。
MathVision: 数学競技の問題を含むテストセットに対応し、さまざまな分野の課題に適応可能です。
OlympiadBench: オリンピック競技レベルの科学・数学問題で、段階的な推論能力を発揮しました。

これらの結果から、QVQ-72B-PreviewはOpenAIの最新モデル「o1」に匹敵する性能を持つことが明らかとなっています。

QVQ-72B-Previewの応答例

世界的に有名なプログラマーであるサイモン・ウィリソン(Simon Willison)氏が行った、QVQ-72B-Previewの実験について紹介します。

＜QVQ-72B-Previewの応答例＞

ペリカンを数えるタスク
恐竜の高さを推定するタスク

1.ペリカンを数えるタスク

**カリフォルニアブラウンペリカンの若鳥4羽がドックに止まる写真**(引用：サイモン・ウィリソン氏のブログ)

プロンプト: ペリカンの数を教えてください。
QVQの回答: “さて、このペリカンたちの写真を見て、数を数えなければいけませんね。まず、ペリカンの特徴である大きな嘴を確認しましょう。…左から順に慎重に数えてみると、4羽のペリカンが写っています。なお、画像の右端に別の鳥の一部、おそらくペリカンの背中か尾羽が写っていますが、フレーム内に完全に収まっていないので、完全な個体としてカウントしない方が良いでしょう。”

この回答は、ユーザーが思考過程を追体験できるよう構成されており、非常に解釈性が高いです。

2.恐竜の高さを推定するタスク

**クリスマス仕様のドラゴンの上にトナカイが跨っている写真**(引用：サイモン・ウィリソン氏のブログ)

プロンプト: この恐竜(ドラゴン)の高さを推定してください。
QVQの回答: “この装飾は緑色のドラゴンで、背中にはトナカイが乗っています。自分の身長を178cm(5フィート10インチ)と仮定して、これを基準に高さを推定すると、装飾全体の高さは約2.4〜2.7メートル(8〜9フィート)と見積もられます。”

ウィリソン氏が「QVQ-72B-Previewがどうやって自分の身長を決めたのか不思議です」とコメントするように、まだまだ本モデルにも限界がありそうです。

QVQ-72B-Previewの限界

研究チームは「QVQ-72B-Previewはあくまで実験的な研究モデルである」と位置付けています。そのため、前モデルの「Qwen2-VL」では可能だった動画の入力ができません。また、実用化に向けて次のような課題があるだろうと指摘しています。

＜QVQ-72B-Previewの課題＞

応答の際に複数の言語を混ぜたり、変更してしまう事がある
推論中に循環的な論理パターンに陥り、結論を出す事なく冗長な応答を生成する場合がある
セキュリティと信頼性を確保するためには別途安全対策が必要
複数ステップの視覚的推論中に画像コンテンツへの焦点を失って幻覚を引き起こす場合がある

今後の展望：AGIの実現に向けたモデル開発の加速

Qwenは、AGI(汎用人工知能)の実現を目指し、あらゆる分野で活用できる賢いモデルの開発を目指すとしています。

具体的には、視覚情報をもとにした高度な思考力や推論力を備える、視覚言語統合モデル(vision-language foundation model)を強化していくそうです。また、より複雑な課題への対応や科学的探求をサポートできるマルチモーダルなAIの開発を進めるとしています。

まとめ

QVQ-72B-Previewは、Alibabaが開発した視覚推論に特化した次世代のAIモデルとして、大きな可能性を秘めています。視覚情報をもとにした高度な推論能力や応答の透明性といった特長を備え、医療や教育、シミュレーションなど、幅広い分野での活用が期待されています。一方で、応答の際に複数の言語を混ぜたり、循環的な論理パターンに陥ったりする可能性があるなど、いくつかの課題も明らかになりました。

今後は、AGIの実現を目指したさらなる改良が進められることでしょう。QVQ-72B-Previewの進化により、視覚と言語を統合したAI技術がどのように発展していくのか、引き続き注目していきたいところです。

なお、Alibabaは2024年11月28日に、推論特化型AIモデル「Qwen with Questions(QwQ)」のプレビュー版である「QwQ-32B-Preview」もリリースしています。気になる方はぜひご覧ください。