最終更新日 25/01/28
特集記事

【DeepseekとOpen AI o1性能比較】東大入試解かせてみた

AI
Share this post

最近話題となっている中国のAI企業「DeepSeek」と「Open AI 」の性能を比較していきます。

具体的には、東大の入試問題を用いて、「DeepSeek-R1」」と「Open AI o1」に問題を解いてもらいその精度を測っています。

本記事では、DeepSeekの概要と、精度の検証を行った結果をまとめています。

最近話題のDeepSeekとは?

中国のAI企業「DeepSeek」は、推論特化型の大規模言語モデル「DeepSeek-R1-Zero」および「DeepSeek-R1」をオープンソースで公開し、世界的な注目を集めています。これらのモデルは、多様な分野での推論タスクに強みを持ち、計算効率の高さが特徴です。

また、「DeepSeek」を基盤としたアプリは米国App Storeで無料ランキング1位を獲得しており、その成果が広く評価されています。特に数学や科学分野での問題解決能力が評価され、教育分野における応用にも期待されています。

実際に利用してみたい方は、こちらのリンクからアクセスしてみてください。

「DeepSeek」について、より詳細に知りたい方は、次の【DeepSeek】低コスト・高性能AIモデルで世界を驚かせる中国発のテクノロジーの記事をご覧ください。

精度比較:東大入試解かせてみた

使用する問題は、東京大学文系数学の入試問題で以下の問題を使用します。

ただし、言語間での差をなくすために、以下のように英文に直して使用します。

実際に解いている画面

比較結果

本検証では、OpenAI o1とDeepSeek-R1の2つのモデルを用いて解答能力を比較しました。その結果は以下の通りです。

項目OpenAI o1DeepSeek-R1
解答時間約2分30秒約15分
(1)解答精度正解正解
(2)解答精度正解正解
(3)解答精度正解(理解あり)正解(理解あり)

両モデルはすべての問題で正確に解答を導き出しました。ただし、解答速度に大きな差が見られ、OpenAI o1はわずか約2分30秒で解答を完了。一方、DeepSeek-R1は約15分を要しており、性能には改善の余地があることがわかります。

なお(3)に関しては、sが特定の数値のときにAが最小になることを理解していれば、証明できたとしています。

考察

OpenAI o1の強み

OpenAI o1は、圧倒的な速度での問題解決が可能です。問題の条件を素早く解析し、正確な解を出力する能力は、数学問題のような論理的思考を要するタスクにおいて顕著でした。また、複雑な数式の操作や特定条件の理解においても、正確性を損なうことなく対応できています。

DeepSeekの可能性

一方、DeepSeek-R1はオープンソースモデルとしての柔軟性が大きな特徴です。モデルをカスタマイズすることで、特定のタスクや業界に最適化する可能性を秘めています。この特徴は、今後の継続的なアップデートやカスタムソリューションの開発を通じて活かされるでしょう。また、教育分野への応用が進めば、さらなる利用拡大が期待されます。

まとめと今後の展望

今回の検証では、「DeepSeek」と「OpenAI o1」という2つのAIモデルを比較し、その性能と特徴を明らかにしました。両者とも高い解答精度を示しましたが、速度ではOpenAI o1が優勢でした。

一方、DeepSeekのオープンソースとしての柔軟性は大きなアドバンテージであり、特定分野への適応や長期的な発展が期待されます。AI業界において、中国発の技術が国際的に注目される事例として、今後の動向にも目が離せません。

AIによる学問支援や教育分野での活用がさらに進む中、両モデルの進化がどのように影響を与えるのか、引き続き注目していきたいところです。

目次に戻る

タイトルとURLをコピーしました