作者: 科创板日报记者 黄心怡|
发布时间:2025-01-27 22:59:18
超越ChatGPT登顶 Deepseek被“挤”到宕机!或将推动AI应用爆发
摘要
国内AI初创公司DeepSeek因新模型发布导致用户访问量激增,服务短暂宕机。其新发布的DeepSeek-R1模型在基准测试中表现优异,超越了OpenAI的ChatGPT,并登顶苹果美国地区应用商店免费APP下载排行榜。DeepSeek的成功不仅展示了模型架构在算法和数据层面创新的价值,还可能推动AI应用的爆发。
正文
DeepSeek的服务宕机原因
今日,国内AI初创公司DeepSeek出现了短时闪崩现象。据DeepSeek回应,其服务再次“宕机”,源自新模型发布后,用户访问量激增所致。
DeepSeek-R1的卓越表现
这家由知名私募巨头幻方量化于2023年4月创立的大模型公司,近日正式发布推理大模型DeepSeek-R1。在国外大模型排名Arena上,DeepSeek-R1基准测试已经升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与OpenAI o1并列第一。
DeepSeek应用的巨大成功
1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。
专家对DeepSeek的评价
“DeepSeek AI已经能思考了,这是质的飞跃。”武汉大学计算机学院教授、中国人工智能学会心智计算专委会副主任委员蔡恒进如此评价DeepSeek。
市场对DeepSeek的反应
在DeepSeek引发业内震动的同时,以科技股为主的纳斯达克100指数期货跌幅达3%,原因是市场担忧DeepSeek的AI模型可能会扰乱科技行业。
DeepSeek的成本优势
此前有消息称,DeepSeek仅用2048颗英伟达H800 GPU和约550万美元,就训练出6710亿参数的开源大模型,是Llama-3405B超6000万美元训练成本的十分之一不到。然而,550万美金只是DeepSeek-V3训练成本的一部分,真实算力成本投入远不止600万美元。
DeepSeek的创新价值
“DeepSeek则带来了对算力/能耗的需求十余倍的降低。”蔡恒进强调。魔形智能创始人徐凌杰介绍,DeepSeek巧妙利用了多种优化手段来降低成本,其中包括采用低精度数据格式进行训练,复用和共享参数,以及通过MoE混合专家的架构动态激活部分参数。
结论
DeepSeek大模型的推出,展示了模型架构在算法和数据层面创新的价值,可能推动AI应用的爆发。随着模型性能的逐步稳定和应用的陆续落地,未来算力的推理需求将超过训练需求,或将迎来AI推理领域的巨大机遇。
延伸阅读
原文链接