【DeepseekとOpenAI o1性能比較】東大入試解かせてみた

最近話題となっている中国のAI企業「DeepSeek」と「OpenAI 」の性能を比較していきます。

具体的には、東大の入試問題を用いて、「DeepSeek-R1」」と「OpenAI o1」に問題を解いてもらいその精度を測っています。

本記事では、DeepSeekの概要と、精度の検証を行った結果をまとめています。

最近話題のDeepSeekとは？
精度比較：東大入試解かせてみた
1. 比較結果
考察
1. 現状はOpenAI o1の方が優秀
2. DeepSeekは今後の可能性が期待される
まとめ・将来展望

最近話題のDeepSeekとは？

中国のAI企業「DeepSeek」は、推論特化型の大規模言語モデル「DeepSeek-R1-Zero」および「DeepSeek-R1」をオープンソースで公開し、世界的な注目を集めています。これらのモデルは、多様な分野での推論タスクに強みを持ち、計算効率の高さが特徴です。

また、「DeepSeek」を基盤としたアプリは米国App Storeで無料ランキング1位を獲得しており、その成果が広く評価されています。特に数学や科学分野での問題解決能力が評価され、教育分野における応用にも期待されています。

実際に利用してみたい方は、こちらのリンクからアクセスしてみてください。

「DeepSeek」について、より詳細に知りたい方は、次の【DeepSeek】低コスト・高性能AIモデルで世界を驚かせる中国発のテクノロジーの記事をご覧ください。

精度比較：東大入試解かせてみた

使用する問題は、東京大学文系数学の入試問題で以下の問題を使用します。

ただし、言語間での差をなくすために、以下のように英文に直して使用します。

実際に解いている画面

比較結果

本検証では、OpenAI o1とDeepSeek-R1の2つのモデルを用いて解答能力を比較しました。その結果は、以下の通りです。

項目	OpenAI o1	DeepSeek-R1
解答時間	約2分30秒	約15分
（1）解答精度	正解	正解
（2）解答精度	正解	正解
（3）解答精度	正解（理解あり）	正解（理解あり）

両モデルはすべての問題で正確に解答を導き出しました。ただし、解答速度に大きな差が見られ、OpenAI o1はわずか約2分30秒で解答を完了。一方、DeepSeek-R1は約15分を要しており、性能には改善の余地があることがわかります。

なお（3）に関しては、sが特定の数値のときにAが最小になることを理解していれば、証明できたとしています。

考察

現状はOpenAI o1の方が優秀

OpenAI o1は、圧倒的な速度での問題解決が可能です。問題の条件を素早く解析し、正確な解を出力する能力は、数学問題のような論理的思考を要するタスクにおいて顕著でした。また、複雑な数式の操作や特定条件の理解においても、正確性を損なうことなく対応できています。

DeepSeekは今後の可能性が期待される

一方、DeepSeek-R1はオープンソースモデルとしての柔軟性が大きな特徴です。モデルをカスタマイズすることで、特定のタスクや業界に最適化する可能性を秘めています。この特徴は、今後の継続的なアップデートやカスタムソリューションの開発を通じて活かされるでしょう。また、教育分野への応用が進めば、さらなる利用拡大が期待されます。