DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品

:memo: 作者: 财联社 史正丞| :date: 发布时间:2025-01-28 03:51:56

DeepSeek发布多模态大模型Janus-Pro,图像性能超越OpenAI竞品

摘要

在除夕凌晨,中国公司DeepSeek发布了新一代多模态大模型Janus-Pro,该模型在图像生成基准测试中表现优异,超越了OpenAI的DALL-E 3模型。Janus-Pro不仅具备在消费级电脑上本地运行的潜力,还采用了新颖的自回归框架,统一了多模态理解和生成。

正文

DeepSeek发布Janus-Pro模型

在华尔街紧张评估“DeepSeek风暴”之际,DeepSeek公司再度推出新品:Janus-Pro多模态大模型。该模型在图像生成基准测试中超越了OpenAI的DALL-E 3,并且同样开源。

模型参数量与商用潜力

Janus-Pro 7B1.5B模型是对去年10月发布的Janus模型的升级,参数量分别为15亿70亿,具备在消费级电脑上本地运行的潜力。Janus-Pro采用MIT许可证,在商用方面没有限制。

技术创新

Janus-Pro采用了一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,解决了以往方法的局限性,提升了框架的灵活性。

性能表现

从报告给出的“跑分”数据来看,在部分文生图基准测试中,Janus-Pro 70亿参数模型表现好于OpenAI的DALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。

数据与训练

技术报告显示,Janus-Pro通过添加7200万张高质量合成图像,使得在统一预训练阶段真实数据与合成数据的比例达到1:1,实现“更具视觉吸引力和稳定性的图像输出”。在多模态理解的训练数据方面,新模型参考了DeepSeek VL2并增加了大约9000万个样本

多模态功能

作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的“猫和老鼠”蛋糕)进行介绍。

结论

DeepSeek的Janus-Pro模型在图像生成性能上展现了强大的竞争力,不仅在技术上有创新,还在多模态理解与生成方面表现出色。随着该模型的开源,预计将在未来推动多模态AI技术的发展。:rocket:


**图片来源:**技术报告

:light_bulb: 延伸阅读
原文链接