Deepseek基础模型V3悄然更新,巨大提升!

h
helloterran4
楼主 (北美华人网)
更离谱的是DS连个发布会都懒得开,只简单的更新了一下发布日志。甚至不屑于发blogpost
没有贷款也要赢的roadmap,没有夸夸其谈的宏大叙事
梁文峰微博上只说了2个字:来测。
具体性能,初步确认可以吊打一切非推理模型。gpt4.5成了笑话
须知R1就是基于V3训练出来的。更期待R1的下一次更新了。





HF高赞评论:Fxxk Altman!
z
zerohedgeNY
我现在发现真的比ChatGPT 好用啊 我是ChatGPT最早的一波付费用户 现在已经全面转用deepseek 推理非常强 很多事情考虑的要比chat 更佳全面 和深入
u
usvagrant
Deepseek训练模型的英文内容来自哪里?老美不设防火墙吗?
b
blueberry0
问题是联不了网,拿不到最新信息
平明寻白羽
usvagrant 发表于 2025-03-25 10:17
Deepseek训练模型的英文内容来自哪里?老美不设防火墙吗?

英文文库是开源的。好像是脸书搞的。
平明寻白羽
deepseek的论文里都有,前一阵子仔细啃过一遍
现在记不住细节了。
半个马和甲
回复 2楼 zerohedgeNY 的帖子
为什么我的总是服务器繁忙。 还有他错了,还是坚持是对的。这玩意儿需要调吗? 谢谢
h
heartinny
虽然但是,你们有没有发现,包括最近蚂蚁发告用国产芯片训练了大模型,华尔街牛一点都不在乎了。
m
meishan123
我觉得ChatGPT挺好用。DeepSeek经常说忙
L
Lxh
GPT 可以上图片,ds不行
b
bestcici
一开始用Deepseek 也有连不上繁忙的情况,后来发现他们为了禁止网络攻击,只要是信箱登陆,就不会有连不上得情况!使用后更喜欢Deepseek ,因为逻辑更清晰,不是空洞泛泛地回答!
N
Namama
半个马和甲 发表于 2025-03-25 11:09
回复 2楼 zerohedgeNY 的帖子
为什么我的总是服务器繁忙。 还有他错了,还是坚持是对的。这玩意儿需要调吗? 谢谢

DS的特点,就是很少做后期训练吧。。只做前期训练
披香侍女
Lxh 发表于 2025-03-25 11:16
GPT 可以上图片,ds不行

DS电脑版就可以上传图片
y
yanle
最近用的比较多,感觉ChatGPT 数据比较新,DS信息数据落后一点点
s
suixin111
v3不是免费的吧
j
jjzatmac
我总是连不上网络搜索啊
y
yangcongtou
回复 1楼 helloterran4 的帖子
这不是最牛的,听说是连藏语版都能精准输出了
h
helloterran4
平明寻白羽 发表于 2025-03-25 11:05
英文文库是开源的。好像是脸书搞的。

大模型都是用整个互联网的文库来训练。之前"自杀"的Open AI吹哨人,他举报的就是openai用别人知识产权的代码牟利。
一次训练耗资几十亿的grok,提升就那么一点,也是因为互联网的高质量内容早已经用完了,没有进一步提升的空间。
y
yangcongtou
回复 1楼 helloterran4 的帖子
侬观下
deepseek v3文档里面没有提,但实际上已经完美支持藏语了。 
m
meetmylove2015
deepseek老是说忙,不好用,还是用chatgtp多。
金银岛
v3不是免费的吧
suixin111 发表于 2025-03-25 13:03

如果你装的是deepseek app,那自动就是使用V3了,因为这是服务端的更新,和客户端无关。免费的。
c
ca563
zerohedgeNY 发表于 2025-03-25 08:55
我现在发现真的比ChatGPT 好用啊 我是ChatGPT最早的一波付费用户 现在已经全面转用deepseek 推理非常强 很多事情考虑的要比chat 更佳全面 和深入

我上个月也停了ChatGPT的月费,确实不值
小东西
又开始了,炒作引流过头了。
现在最强模型是Google Gemini和Grok。
h
helloterran4
小东西 发表于 2025-03-25 13:52
又开始了,炒作引流过头了。
现在最强模型是Google Gemini和Grok。

笑死,这就是如何用一句话证明自己纯外行
你要是ai从业者,你自然知道DS V3这种非推理模型用600B参数达到这个效果的含金量
你要是ai用户,当然是用claude 搭配R1。Claude是目前大模型里智力密集最高,微调最好的。R1用来给Claude生成prompt,秒杀其他一切方案。
什么gemini,什么grok,用起来都狗屁不通。
网络上基于各家大模型的辅助工具多如牛毛,谁好用谁不好用早就有共识了。懂?
小东西
靠这行吃饭的,比你懂多了。600B参数很少么?Gemma 3只用27B参数都差点进竞技场前10。Claude强在对代码overfit,程序员喜欢用,还智力密度。deepseek R1在中文训练素材的确更全,但论推理从发布就只是勉强到o1水平,现在早被o3-mini-high和Gemini-2.0-thinking超了,你还能继续炒作。
小东西
代码生成一般默认是Claude Sonnet 3.5,其他的追求性价比的一般是Gemini,OpenAI太贵,Deepseek自家的infra太烂流量吃不到。你说给我听听哪些AI工具是用Deepseek做基座的。
d
deann
bestcici 发表于 2025-03-25 11:19
一开始用Deepseek 也有连不上繁忙的情况,后来发现他们为了禁止网络攻击,只要是信箱登陆,就不会有连不上得情况!使用后更喜欢Deepseek ,因为逻辑更清晰,不是空洞泛泛地回答!

原来是这样。