DeepSeek发布新开源AI模型,生图能力胜过DALL-E 3

今日头条
Toutiao
最新回复:2025年1月27日 19点2分 PT
  返回列表
69749 阅读
20 评论
硬AI

海外网友才开始经受R1的“洗礼”,中国人工智能(AI)初创DeepSeek又发布了新的模型,给闭源模型带来开源图像生成的震撼。

美东时间1月27日周一,AI社区Hugging Face显示,DeepSeek发布了分别名为Janus-Pro和JanusFlow的一系列开源多模态AI模型,参数大小从10亿到70亿不等,都已可在Hugging Face下载。

其中,70亿参数的Janus-Pro-7B号称在图像创建的能力方面超越了OpenAI 的DALL-E 3和Stable Diffusion模型。

DeePSeek展示的下图可见,在文生图GenEval和DPG-Bench基准测试中,Janus-Pro-7B的准确率较前代Janus大幅提高,准确率测试结果分别为80%和84.2%,高于包括DALL-E 3在内的其他对比模型,Janus的准确率分别为61%和79.7%。

DeepSeek称,Janus-Pro和JanusFlow的代码基于MIT许可证授权,这意味着它们可以不受限地用于商业用途。

Janus-Pro采用视觉编码解耦方式 统一Transformer架构

Janus-Pro是一款统一多模态理解与生成的创新框架,通过视觉编码解耦的方式,采用独立的路径分别处理多模态理解与生成任务,从而解决视觉编码器在两种任务中的功能冲突,大幅提升模型在不同任务中的适配性与性能,同时仍使用统一的 Transformer 架构处理多模态任务。

DeepSeek介绍:

“Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。它通过将视觉编码分离为独立的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。Janus-Pro超越了之前的统一模型,并达到或超过了特定任务模型的性能。Janus-Pro 的简单、高灵活性和有效性使其成为下一代统一多模式模型的有力候选者。”

Janus-Pro基于DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base两个架构打造,使用SigLIP-L视觉编码器,高质量图像生成能力,支持384x384 分辨率输入,满足多场景需求,并采用LlamaGen Tokenizer生成模块,下采样率为 16,生成更精细的图像。

Janus-Pro架构高度灵活且设计统一,可适配视觉问答、图像标注等多模态场景。

下图可见Janus-Pro和Janus的文生图效果对比。相比Janus,Janus-Pro对短提示词的输出更稳定,视觉质量提高,细节更丰富,且增加了生成简短文本的功能。

JanusFlow极简架构 无需复杂架构修改 生图支持384x384分辨率

DeepSeek介绍,JanusFlow这个框架将图像理解和生成统一在一个模型中。

对于JanusFlow,DeepSeek采用了“一种极简架构,将自回归语言模型与生成建模中最先进的方法“矫正流”(Rectified Flow)相结合。” DeepSeek发现,矫正流可以在大语言模型(LLM)框架内直接训练,无需进行复杂的架构修改。

换言之,JanusFlow的架构极简,直接将生成流融入LLM框架,从而简化了多模态建模流程。

DeepSeek称,JanusFlow 是一款统一的理解和生成多模态大语言模型(MLLM)。它将视觉编码与多模态理解和生成分离,它基于 DeepSeek-LLM-1.3b-base构建。

对于多模态理解,JanusFlow使用 SigLIP-L 作为视觉编码器,支持384 x 384图像输入。对于图像生成,JanusFlow 使用矫正流与SDXL-VAE结合,生成 384 x 384分辨率图像。提供的检查点是预训练和监督微调后的EMA检查点。

下图可见JanusFlow的基准测试表现与LLaVA等其他模型对比,以及它的生图结果展示。

J
Jambox
1 楼
坐看狗粮刷板贴数据 @今日雨果 jeffinvade
不得有空格
2 楼
巧克力新闻 人吃了没事 狗吃了会死
g
googlebot
3 楼
deepseek吃了伟哥,
俺样
4 楼
先过好这个年吧…哪来的那么多斗争
n
nyzyc
5 楼
先让子弹飞一会儿。
E
Edmondon
6 楼
过年送大礼
m
mrp
7 楼
洋大人请坐稳,等我们黄皮狗粮咬死deepseek给您献礼!
D
DLGJZD
8 楼
刷你妈逼啊,好好看新闻,别挑起争端,看你像小便马甲
f
fivecentsdog
9 楼
来来来,老子给你们这些傻逼科普一下 美国搞了环球资源,中国抄袭搞了阿里巴巴 美国搞了搜索引擎谷歌,中国搞个百度 美国搞个谷歌地图,中国搞了百度地图 美国兴起电动车,中国也跟着 美国搞了优步打车,中国抄袭搞嘀嘀打车 美国搞ChatGPT 中国抄袭搞个deepseek 看明白了狗逼们? 抄袭的是人家的概念! 技术不怕你抄袭,但创新概念是无法抄袭的! 要老子说,中国最牛逼的创意其实是团购! 其他的就别丢人现眼了 美股从2008年涨到现在17年了,跌一天狗逼们就狂吠喊崩盘,崩你妈的个逼啊! A股从2008年道现在原地不动,涨一天狗逼们就喊天下第一。 [2评]
不得有空格
10 楼
中国还是发明了你这种打简体字说普通话的精神美国人自恨党啊
寒流来袭
11 楼
我日,这让华尔街癫狂过大年啊!喜闻乐见
J
Jambox
12 楼
中国最牛逼的不是团购是汉奸 看看 9 楼的就知道了 迷之自豪 迷之自卑
r
redfox
13 楼
我烤,你这傻逼彻底破防了
媚眼瞟瞟
14 楼
测试指数不相上下, 即使都多出百分之几, 也逃脱不了套壳嫌疑, 甚至可能套了一大堆。 [1评]
J
Jambox
15 楼
那你爹怕什么🙄
C
Crosscurrent
16 楼
太牛了!能战胜中国人的人在地球上还没生出来。
不清不楚
17 楼
可以算的上是震憾弹了,告诉美国人不是只有他们会创新,也不是靠制裁可以让中国人屈服
我已潜水很多年
18 楼
懂王20号刚宣布要投资五千亿搞AI基建,,,第二天就被泼了一大盆冷水,,,而且还接着一盆又一盆,真TM爽啊!!!
w
whatever2
19 楼
deepseek大模型是比六代机更轰动的事件,AI是美国除去芯片以外最后一个高地,而且也是唯一一个支持美国股市虚高的动力源,这次算是戳破了资本的泡沫,
j
jxxy1234
20 楼
傻逼狗杂种知道套壳是什么意思吗? 你以为你套了个马甲就没人知道你是傻逼了吗