作者: 祁岩|
发布时间:Sat, 08 Feb 2025 00:00:00 GMT
机械设备行业:高端制造产业跟踪(1月):DeepSeek爆火预示着投资方向的何种变化?
摘要
DeepSeek系列的爆火预示着大模型领域的重要变化。DeepSeek模型在成本、技术突破和市场影响力方面表现出色,预示着开源模型和后训练时代的到来。本文将详细分析DeepSeek的技术突破、市场影响以及对投资方向的启示。
正文
DeepSeek系列为什么爆火?
DeepSeek系列模型在多个测试中展现出媲美OpenAI模型的能力,尤其是在AIME2024、Codeforces、GPQADiamond、Math-500、MMLU等测试中,DeepSeek-R1的表现与OpenAI-o1相当。
模型成本大幅下降:DeepSeek-R1的API服务输出定价为16元/1MTokens,相较于OpenAI-o1下降了96%。对于2024年12月发布的DeepSeek-V3,其API服务输出订单仅为8元(活动优惠期内为2元)/1MTokens。
DeepSeek系列有哪些关键的技术突破?
DeepSeek系列包含两个核心模型:DeepSeekV3和DeepSeekR1/R1-zero。
DeepSeekV3在传统专家混合模型(MoE)上进行了改进,实现了超低的训练成本。通过动态调整专家负载和FP8混合精度训练框架,DeepSeekV3的训练成本仅为557.6万美元,远低于OpenAI训练GPT-4的6300万美元。
DeepSeekR1/R1-zero通过大规模强化学习训练,涌现出强大的推理能力。特别是R1-zero,完全依赖于强化学习,省略了监督微调(SFT)环节,进一步减少了人工干预。
DeepSeek系列的影响?
开源VS闭源
大模型领域一直存在开源和闭源的争议。DeepSeek作为一个开源模型,其爆火意味着开源模型领域的一次大的突破,大幅降低了模型门槛,促进了AI领域的加速发展。
预训练VS后训练
前OpenAI联合创始人IlyaSutskever表示,预训练时代即将结束,AI领域正从预训练转向基于强化学习的后训练。DeepSeekR1已经展现出后训练可以涌现出强大的推理思考能力。
算力VS应用
尽管DeepSeek的低成本模型让人担忧巨额的算力投资是否过度,但更低的成本会刺激更大的需求。从投资层面,建议投资者2025年重点关注AI的应用,包括agent、智能硬件(如AI眼镜)和具身智能。
结论
DeepSeek系列的爆火预示着大模型领域的重要变化。技术突破
、成本降低
和市场影响力
共同推动了AI领域的加速发展。投资者应关注未来的AI应用,尤其是在agent、智能硬件和具身智能领域的发展机遇。
延伸阅读
研报PDF原文链接