[清华大学]DeepSeek与AI幻觉

dao1 · 2025 年2 月 22 日 23:23

作者： | 发布时间：Fri, 21 Feb 2025 00:00:00 GMT

[清华大学] DeepSeek与AI幻觉案例1

摘要

本文通过分析DeepSeek在金融行业的应用案例，揭示了AI幻觉现象及其潜在风险。特别是在医疗系统中，AI的幻觉问题对患者健康和医疗系统产生了严重负面影响。本文还探讨了AI幻觉的成因及潜在风险，提出了对未来AI模型开发的建议。

正文

DeepSeek在金融行业的应用案例

案例1：某头部银行

利用DeepSeek构建因果归因网络，识别小微企业违约的隐性因素（如上下游账期错配）。
针对性设计“供应链票据贴现+账期保险”组合产品，不良率下降4.2个百分点。

案例2：国信证券

在“金太阳APP”中部署DeepSeek-R1-Distill-32B端侧模型。
客户本地输入风险测评数据后，模型生成个性化投资组合建议。
仅将匿名化策略权重同步至云端风控系统，数据泄露风险降低90%。

AI幻觉案例：Whisper系统

行业应用

OpenAI的自动语音识别（ASR）系统Whisper，应用于医疗系统中，将患者与医生的对话问诊过程音频转写为文字病例。
超过30,000名临床医生和40个医疗系统使用。

发现问题

在100多个小时的Whisper转录样本中，约有一半内容存在幻觉。
原音频内容与转录文本严重不符，导致2.6万份自动转录病例中几乎每本都存在瞎编和幻觉问题。
对患者健康和医疗系统产生严重负面影响。

什么是AI幻觉？

学术定义

指模型生成与事实不符、逻辑断裂或脱离上下文的内容，本质是统计概率驱动的“合理猜测”。

通俗解释

一本正经地胡说八道。

分类

事实性幻觉：生成的内容与可验证的现实世界事实不一致。
忠实性幻觉：生成的内容与用户的指令或上下文不一致。

AI为什么会产生幻觉？

数据偏差

训练数据中的错误或片面性被模型放大（如医学领域过时论文导致错误结论）。

泛化困境

模型难以处理训练集外的复杂场景（如南极冰层融化对非洲农业的影响预测）。

知识固化

模型过度依赖参数化记忆，缺乏动态更新能力（如2023年后的事件完全虚构）。

意图误解

用户提问模糊时，模型易“自由发挥”（如“介绍深度学习”可能偏离实际需求）。

音乐为什么没有幻觉？

主观性和多样性

音乐是一种高度主观的艺术形式，人们对音乐的审美和理解有很大的差异。

抽象性

音乐本质上是抽象的，不像文本或图像那样直接对应现实世界的具体事物。

可感知性差异

音乐是时间性的艺术形式，即使某些部分听起来不协调或不符合预期，它们也可能在整个作品的上下文中变得合理。

AI幻觉的潜在风险

信息污染风险

由于DeepSeek的低门槛和普及度高，大量AI生成内容涌入中文互联网，加剧了虚假信息传播的“雪球效应”，甚至污染下一代模型训练数据。

信任危机

普通用户难以辨别AI内容的真实性，可能对医疗建议、法律咨询等专业场景的可靠性产生长期怀疑。

控制欠缺

DeepSeek的对齐工作较其他闭源大模型有所欠缺，其开源特性也允许使用者随意使用，可能会成为恶意行为的工具。

安全漏洞

若错误信息被用于自动化系统（如金融分析、工业控制），可能引发连锁反应。

结论

AI幻觉现象对多个行业产生了深远的影响，尤其是在医疗和金融领域。为了应对这一挑战，未来的AI模型开发需要更加注重数据质量、模型的动态更新能力以及用户意图的准确理解。同时，AI模型的开放性和安全性也需要得到更好的平衡，以避免潜在的信任危机和信息污染风险。

延伸阅读
研报PDF原文链接

话题		回复	浏览量
[中国银河]金融行业深度报告：Deepseek冲击波：AI赋能下的金融行业重构及变革热门研报	0	7	2025 年2 月 22 日
[头豹研究院]行业简报：大模型幻觉对互联网信息的影响：深度解析大模型幻觉污染，互联网信息生态将迎来哪些挑战与变革？热门研报	0	8	2025 年3 月 6 日
[清华大学]人工智能行业：DeepSeek如何赋能职场应用？——从提示语技巧到多场景应用热门研报	1	3	2025 年2 月 15 日
[国信证券]基于财报文本的情感语调的分析：DeepSeek辅助识别财务瑕疵热门研报	1	3	2025 年4 月 20 日
[国信证券]AI赋能资产配置（八）：DeepSeek在资产配置中的实战解答热门研报	0	5	2025 年3 月 20 日