作者: 科创板日报 朱凌|
发布时间:2025-05-29 16:07:03
DeepSeek R1 vs. OpenAI o3:国产开源模型强势追击! 


摘要: 最新实测表明,国产开源模型 DeepSeek R1 经过小版本升级后,部分性能已媲美 OpenAI 最新 o3 模型。在代码生成和统计任务上表现突出,但在数学推理和知识检索方面仍有提升空间。
正文:
DeepSeek R1 模型升级及开源
DeepSeek 于 2025年5月29日凌晨开源了最新版本模型 DeepSeek-R1-0528。此前,DeepSeek 团队已于昨晚通过微信交流群通知了此次小版本升级。
性能对标 OpenAI o3
代码测试平台 Live CodeBench 显示,DeepSeek-R1-0528 的性能可以媲美 OpenAI 最新的 o3 (High) 模型。
实测对比:DeepSeek vs. OpenAI
以下为模拟普通用户,参考 AI 基准测试 xbench 的例题,对 DeepSeek 和 OpenAI 最新模型(R1 和 o3)进行的对比测试结果:
1. 代码生成:网页版“三国杀”游戏
- DeepSeek: 直接输出完整的网页游戏源码,点击即可运行。前端界面美观,具备基础美术元素,能完成简单对战逻辑。胜!
- OpenAI: 将前端、脚本和逻辑分别输出在 3 个独立代码块中,用户需自行保存为多个文件,运行时还伴有报错,需要手动调试,不能完成对战。界面粗糙、无UI美化。
结论: DeepSeek 模型在“代码工程化”能力上已有显著优势,表现出对前端框架的更好理解。
2. 数学推理:函数构造与嵌套
- DeepSeek: 耗时 351 秒推导出解法,过程详细且逻辑缜密,最终得出 f(5)=6 的唯一解答。
- OpenAI: 用时仅 41 秒,给出了同样正确的答案,而且逻辑清晰、推理精炼。
结论: DeepSeek 在数学题场景仍待优化,推理时间较长。
3. 地理常识:地市级行政单位接壤情况
- DeepSeek: 仅回答了 5 个,错误理解了“地市级单位”是否一定拥有边境口岸,推理思路存在漏算。
- OpenAI: 正确点名了 12 个地市。胜!
结论: DeepSeek 在地理常识和事实检索方面存在不足。
4. 历史考据:文物与历史人物
- DeepSeek: 出现了幻觉,造成误判,错将有“一个被剪做鞋样的历史文物”关联至"唐代田界砖",虽最后回答出“有 4 子”,但纯属偶合。
- OpenAI: 正确识别文物“赵怀满夏田契”署于贞观十七年(643年),对应去世人物为魏徵,并指出魏徵有四子。识别精准,逻辑链条完整无误,考证准确。 胜!
结论: DeepSeek 在历史知识的准确理解和事实性关联方面仍有改进空间。
5. 信息提取与统计:《乐队的夏天》女性成员
- DeepSeek: 依次列举了三季节目中的 Top5 乐队,统计结果为 5 位女性成员,并对女性在乐队中所扮演的角色进行了总结。用时不到 1 分钟,效率高。 胜!
- OpenAI: 也给出了相同的数量,考证细致,但花费近 6 分钟,在交互场景中显得拖沓。
结论: DeepSeek 在多维信息提取和数据整合任务上效率更高。
结论:
通过以上实测可以看出,DeepSeek R1 的表现非常接近甚至在部分任务上超过了 OpenAI 最新 o3 模型。尤其是在代码生成、复杂函数推理、统计等方面,DeepSeek 展现出全面且稳定的进步,正快速缩小与顶级闭源模型的差距。![]()
延伸阅读
原文链接