多模态又考验算力了!ChatGPT文生图功能太火爆 奥尔特曼:GPU“冒烟了”

:memo: 作者: 科创板日报 宋子乔| :date: 发布时间:2025-03-28 09:25:45

:collision: ChatGPT 文生图功能太火爆:多模态考验算力极限,Altman 称 GPU“冒烟了”:fire:

摘要: OpenAI 的 ChatGPT 文生图功能因需求过高导致 GPU 资源紧张,创始人 Sam Altman 称 GPU 甚至“冒烟了”。OpenAI 将临时限速图像生成功能,并推迟向免费用户开放,折射出 AI 多模态技术发展中的资源与需求平衡难题。


正文:

《科创板日报》2025年3月28日讯 (编辑 宋子乔) 随着 OpenAI 的图像生成功能完成重大升级,新的问题出现了!

OpenAI 创始人 Sam Altman 表示:ChatGPT 的文生图应用需求过高,我们的 GPU “冒烟了” (melting),在努力提高效率的同时,将暂时对 ChatGPT 生成图片的功能引入一些速率限制。

这意味着:

  • OpenAI 将对 ChatGPT 的图像生成功能实施临时限速,降低单位时间内的请求处理量,缓解 GPU 过载压力。
  • 优先保障文本生成、对话等核心功能的稳定性。
  • 或许将暂时放缓图像生成的技术优化节奏。

此前3月26日,OpenAI 推出基于 GPT-4o 模型的图像生成功能——Images in ChatGPT,用户可在 ChatGPT 及 Sora 平台直接通过自然语言指令生成、编辑图像,支持多轮迭代优化。这标志着 ChatGPT 正式将文本、图像、代码等多模态能力深度整合,实现从单一语言模型向全模态智能体的跨越。这项功能迅速火爆,互联网平台上涌入大量由个人照片、知名梗图转变而来的“吉卜力”卡通风格图片。

:eyes:

Sam Altman 在社交平台上的新头像,生成自 Images in ChatGPT:
(此消息中包含三张由Images in ChatGPT生成的头像图片,此处省略。)

与此同时,由于图像生成功能的受欢迎程度远超预期,OpenAI 原本计划本周向所有用户推送这项功能,但现在“被迫”推迟了向免费用户开放新功能的时间。

与作为扩散模型运行的 DALL•E 根本区别是,GPT-4o 图像生成是原生嵌入在 ChatGPT 中的自回归模型。OpenAI 根据在线图像和文本的联合分发来训练模型,使得模型可以学习图像与语言的关系,使其生成有用、一致且具备上下文感知的图像。

GPU 就像一群超级快的“画师”,能同时处理大量计算任务,生成图片(如 DALL•E、Stable Diffusion)需要 AI 逐像素计算,每一步都要处理海量数据。而让 AI 生成更精确、更高清的图像依赖于 GPU 的大规模并行计算。 OpenAI 提到,因为这个模型会创建更详细的图片,所以图像需要更长的渲染时间,通常会达到一分钟

如此一来,文生图功能的用户越多,需要的 GPU 算力成倍增长。

解决方案主要有两种:

  1. 更强大的 GPU (“力大砖飞”路线)
  2. 更高效的 AI 模型 (寄希望于算法优化,通过改进 AI 算法让同样的 GPU 能处理更多任务,比如用更小的模型或压缩技术)

作为 AI 领域的头部玩家,OpenAI 背后的 GPU 储备自然是业内顶尖水准。根据技术咨询公司 Omdia 的分析,微软作为 OpenAI 的主要投资者,在 2024 年购买了约 48.5 万块 英伟达的 Hopper 芯片,是其主要竞争对手 Meta 的 两倍,这使其成为英伟达 GPU 的 最大买家。 OpenAI 的大模型正是用微软的 Azure 云基础设施进行训练。


结论:

OpenAI 因新功能面临的问题,折射了 AI 多模态技术发展中的资源与需求平衡难题。一方面,AI 应用对 GPU 等算力资源的需求依然庞大,另一方面,行业继续呼唤技术迭代,以求高效利用现有资源。:rocket:

:light_bulb: 延伸阅读
原文链接