DeepSeek发布新开源AI模型,生图能力胜过DALL-E 3 - 2025年1月27日 / 头条新闻

6 个月前

海外网友才开始经受R1的“洗礼”，中国人工智能（AI）初创DeepSeek又发布了新的模型，给闭源模型带来开源图像生成的震撼。

美东时间1月27日周一，AI社区Hugging Face显示，DeepSeek发布了分别名为Janus-Pro和JanusFlow的一系列开源多模态AI模型，参数大小从10亿到70亿不等，都已可在Hugging Face下载。

其中，70亿参数的Janus-Pro-7B号称在图像创建的能力方面超越了OpenAI 的DALL-E 3和Stable Diffusion模型。

DeePSeek展示的下图可见，在文生图GenEval和DPG-Bench基准测试中，Janus-Pro-7B的准确率较前代Janus大幅提高，准确率测试结果分别为80%和84.2%，高于包括DALL-E 3在内的其他对比模型，Janus的准确率分别为61%和79.7%。

DeepSeek称，Janus-Pro和JanusFlow的代码基于MIT许可证授权，这意味着它们可以不受限地用于商业用途。

Janus-Pro采用视觉编码解耦方式统一Transformer架构

Janus-Pro是一款统一多模态理解与生成的创新框架，通过视觉编码解耦的方式，采用独立的路径分别处理多模态理解与生成任务，从而解决视觉编码器在两种任务中的功能冲突，大幅提升模型在不同任务中的适配性与性能，同时仍使用统一的 Transformer 架构处理多模态任务。

DeepSeek介绍：

“Janus-Pro 是一种新颖的自回归框架，统一了多模态理解和生成。它通过将视觉编码分离为独立的路径来解决以前方法的局限性，同时仍然使用单一、统一的转换器架构进行处理。Janus-Pro超越了之前的统一模型，并达到或超过了特定任务模型的性能。Janus-Pro 的简单、高灵活性和有效性使其成为下一代统一多模式模型的有力候选者。”

Janus-Pro基于DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base两个架构打造，使用SigLIP-L视觉编码器，高质量图像生成能力，支持384x384 分辨率输入，满足多场景需求，并采用LlamaGen Tokenizer生成模块，下采样率为 16，生成更精细的图像。

Janus-Pro架构高度灵活且设计统一，可适配视觉问答、图像标注等多模态场景。

下图可见Janus-Pro和Janus的文生图效果对比。相比Janus，Janus-Pro对短提示词的输出更稳定，视觉质量提高，细节更丰富，且增加了生成简短文本的功能。

JanusFlow极简架构无需复杂架构修改生图支持384x384分辨率

DeepSeek介绍，JanusFlow这个框架将图像理解和生成统一在一个模型中。

对于JanusFlow，DeepSeek采用了“一种极简架构，将自回归语言模型与生成建模中最先进的方法“矫正流”（Rectified Flow）相结合。” DeepSeek发现，矫正流可以在大语言模型（LLM）框架内直接训练，无需进行复杂的架构修改。

换言之，JanusFlow的架构极简，直接将生成流融入LLM框架，从而简化了多模态建模流程。

DeepSeek称，JanusFlow 是一款统一的理解和生成多模态大语言模型（MLLM）。它将视觉编码与多模态理解和生成分离，它基于 DeepSeek-LLM-1.3b-base构建。

对于多模态理解，JanusFlow使用 SigLIP-L 作为视觉编码器，支持384 x 384图像输入。对于图像生成，JanusFlow 使用矫正流与SDXL-VAE结合，生成 384 x 384分辨率图像。提供的检查点是预训练和监督微调后的EMA检查点。

下图可见JanusFlow的基准测试表现与LLaVA等其他模型对比，以及它的生图结果展示。

Jambox

6 个月

1 楼

坐看狗粮刷板贴数据 @今日雨果 jeffinvade

不

不得有空格

6 个月

2 楼

巧克力新闻人吃了没事狗吃了会死

googlebot

6 个月

3 楼

deepseek吃了伟哥，

俺

俺样

6 个月

4 楼

先过好这个年吧…哪来的那么多斗争

nyzyc

6 个月

5 楼

先让子弹飞一会儿。

Edmondon

6 个月

6 楼

过年送大礼

mrp

6 个月

7 楼

洋大人请坐稳，等我们黄皮狗粮咬死deepseek给您献礼！

DLGJZD

6 个月

8 楼

刷你妈逼啊，好好看新闻，别挑起争端，看你像小便马甲

fivecentsdog

6 个月

9 楼

来来来，老子给你们这些傻逼科普一下美国搞了环球资源，中国抄袭搞了阿里巴巴美国搞了搜索引擎谷歌，中国搞个百度美国搞个谷歌地图，中国搞了百度地图美国兴起电动车，中国也跟着美国搞了优步打车，中国抄袭搞嘀嘀打车美国搞ChatGPT 中国抄袭搞个deepseek 看明白了狗逼们？抄袭的是人家的概念！技术不怕你抄袭，但创新概念是无法抄袭的！要老子说，中国最牛逼的创意其实是团购！其他的就别丢人现眼了美股从2008年涨到现在17年了，跌一天狗逼们就狂吠喊崩盘，崩你妈的个逼啊！ A股从2008年道现在原地不动，涨一天狗逼们就喊天下第一。 [2评]

不

不得有空格

6 个月

10 楼

中国还是发明了你这种打简体字说普通话的精神美国人自恨党啊

寒

寒流来袭

6 个月

11 楼

我日，这让华尔街癫狂过大年啊！喜闻乐见

Jambox

6 个月