最近話題となっている中国のAI企業「DeepSeek」と「Open AI 」の性能を比較していきます。
具体的には、東大の入試問題を用いて、「DeepSeek-R1」」と「Open AI o1」に問題を解いてもらいその精度を測っています。
本記事では、DeepSeekの概要と、精度の検証を行った結果をまとめています。
最近話題のDeepSeekとは?
中国のAI企業「DeepSeek」は、推論特化型の大規模言語モデル「DeepSeek-R1-Zero」および「DeepSeek-R1」をオープンソースで公開し、世界的な注目を集めています。これらのモデルは、多様な分野での推論タスクに強みを持ち、計算効率の高さが特徴です。
また、「DeepSeek」を基盤としたアプリは米国App Storeで無料ランキング1位を獲得しており、その成果が広く評価されています。特に数学や科学分野での問題解決能力が評価され、教育分野における応用にも期待されています。
実際に利用してみたい方は、こちらのリンクからアクセスしてみてください。
「DeepSeek」について、より詳細に知りたい方は、次の【DeepSeek】低コスト・高性能AIモデルで世界を驚かせる中国発のテクノロジーの記事をご覧ください。
精度比較:東大入試解かせてみた
使用する問題は、東京大学文系数学の入試問題で以下の問題を使用します。
ただし、言語間での差をなくすために、以下のように英文に直して使用します。
実際に解いている画面
比較結果
本検証では、OpenAI o1とDeepSeek-R1の2つのモデルを用いて解答能力を比較しました。その結果は以下の通りです。
項目 | OpenAI o1 | DeepSeek-R1 |
---|---|---|
解答時間 | 約2分30秒 | 約15分 |
(1)解答精度 | 正解 | 正解 |
(2)解答精度 | 正解 | 正解 |
(3)解答精度 | 正解(理解あり) | 正解(理解あり) |
両モデルはすべての問題で正確に解答を導き出しました。ただし、解答速度に大きな差が見られ、OpenAI o1はわずか約2分30秒で解答を完了。一方、DeepSeek-R1は約15分を要しており、性能には改善の余地があることがわかります。
なお(3)に関しては、sが特定の数値のときにAが最小になることを理解していれば、証明できたとしています。
考察
OpenAI o1の強み
OpenAI o1は、圧倒的な速度での問題解決が可能です。問題の条件を素早く解析し、正確な解を出力する能力は、数学問題のような論理的思考を要するタスクにおいて顕著でした。また、複雑な数式の操作や特定条件の理解においても、正確性を損なうことなく対応できています。
DeepSeekの可能性
一方、DeepSeek-R1はオープンソースモデルとしての柔軟性が大きな特徴です。モデルをカスタマイズすることで、特定のタスクや業界に最適化する可能性を秘めています。この特徴は、今後の継続的なアップデートやカスタムソリューションの開発を通じて活かされるでしょう。また、教育分野への応用が進めば、さらなる利用拡大が期待されます。
まとめと今後の展望
今回の検証では、「DeepSeek」と「OpenAI o1」という2つのAIモデルを比較し、その性能と特徴を明らかにしました。両者とも高い解答精度を示しましたが、速度ではOpenAI o1が優勢でした。
一方、DeepSeekのオープンソースとしての柔軟性は大きなアドバンテージであり、特定分野への適応や長期的な発展が期待されます。AI業界において、中国発の技術が国際的に注目される事例として、今後の動向にも目が離せません。
AIによる学問支援や教育分野での活用がさらに進む中、両モデルの進化がどのように影響を与えるのか、引き続き注目していきたいところです。