[浙江大学]DS系列专题:DeepSeek技术溯源及前沿探索

:memo: 作者: | :date: 发布时间:Tue, 25 Mar 2025 00:00:00 GMT

DeepSeek 技术溯源及前沿探索:Transformer 理论架构创新 :rocket:

摘要: 本研报深入探讨了 DeepSeek 背后的核心技术 —— Transformer 架构,分析了其在自注意力机制、多头注意力、前馈网络等方面的创新。同时,揭示了自监督学习在语言和图像领域的应用,并强调了大数据、大模型、大算力在 AI 发展中的关键作用。


正文

Transformer 架构的关键创新

Transformer 架构凭借其独特的优势,在人工智能领域取得了显著的突破。主要体现在以下几个方面:

  • 自注意力机制 (Self-Attention): 实现了并行计算,并具备强大的全局上下文理解能力。这使得模型能更有效地处理长序列数据。
  • 多头注意力 (Multi-Head Attention): 从多个角度捕捉复杂的语义关系,显著提升了模型对输入数据的理解深度。
  • 前馈网络/位置编码/层归一化: 解决了传统模型在处理序列数据时遇到的诸多局限性,例如梯度消失、难以捕捉长距离依赖等问题。

自监督学习:语言与图像领域的应用

  • 自监督学习 (语言):Masked Language Modeling (MLM) 为例,模型通过“挖去”句子中的部分单词,并根据上下文预测最合适的“填空词”,从而实现 “自监督”的学习过程。
  • 自监督学习 (图像): 例如 Masked Autoencoders (MAE), 通过随机遮盖部分输入图像,并重建缺失内容,模型能够学习到图像的深层特征,这在计算机视觉任务中至关重要。

大数据、大模型、大算力:AI 发展的核心驱动力

DeepSeek 等大型 AI 模型的成功离不开以下三大要素:

  • 数据: 训练使用了 45TB 数据,包含近1万亿个单词 (约等于 1351万本牛津词典 的单词数量) 以及数十亿行源代码 :exploding_head:
  • 模型: 模型包含 1750亿参数,如果将这些参数打印在 A4 纸上并叠加起来,其高度将超过 632米 的上海中心大厦!:exploding_head:
  • 算力: ChatGPT 的训练门槛约为 1万张英伟达 V100 芯片,耗资约 10亿人民币 :money_bag:

结论

在大数据、大模型、大算力的支持下,AI 模型能够以 “共生则关联” 的原则,挖掘数据中蕴含的统计关联关系。这为人工智能的未来发展奠定了坚实的基础,并开辟了广阔的应用前景 :sparkles:

:light_bulb: 延伸阅读
研报PDF原文链接