Deepseek基础模型V3悄然更新，巨大提升！ - 2025年3月25日北美华人网存档

5 个月

楼主 (北美华人网)

更离谱的是DS连个发布会都懒得开，只简单的更新了一下发布日志。甚至不屑于发blogpost
没有贷款也要赢的roadmap，没有夸夸其谈的宏大叙事
梁文峰微博上只说了2个字：来测。
具体性能，初步确认可以吊打一切非推理模型。gpt4.5成了笑话
须知R1就是基于V3训练出来的。更期待R1的下一次更新了。

HF高赞评论：Fxxk Altman!

zerohedgeNY

5 个月

我现在发现真的比ChatGPT 好用啊我是ChatGPT最早的一波付费用户现在已经全面转用deepseek 推理非常强很多事情考虑的要比chat 更佳全面和深入

usvagrant

5 个月

Deepseek训练模型的英文内容来自哪里？老美不设防火墙吗？

blueberry0

5 个月

问题是联不了网，拿不到最新信息

平

平明寻白羽

5 个月

usvagrant 发表于 2025-03-25 10:17
Deepseek训练模型的英文内容来自哪里？老美不设防火墙吗？

英文文库是开源的。好像是脸书搞的。

平

平明寻白羽

5 个月

deepseek的论文里都有，前一阵子仔细啃过一遍
现在记不住细节了。

半

半个马和甲

5 个月

回复 2楼 zerohedgeNY 的帖子
为什么我的总是服务器繁忙。还有他错了，还是坚持是对的。这玩意儿需要调吗？谢谢

heartinny

5 个月

虽然但是，你们有没有发现，包括最近蚂蚁发告用国产芯片训练了大模型，华尔街牛一点都不在乎了。

meishan123

5 个月

我觉得ChatGPT挺好用。DeepSeek经常说忙

Lxh

5 个月

GPT 可以上图片，ds不行

bestcici

5 个月

一开始用Deepseek 也有连不上繁忙的情况，后来发现他们为了禁止网络攻击，只要是信箱登陆，就不会有连不上得情况！使用后更喜欢Deepseek ，因为逻辑更清晰，不是空洞泛泛地回答！

Namama

5 个月

半个马和甲发表于 2025-03-25 11:09
回复 2楼 zerohedgeNY 的帖子
为什么我的总是服务器繁忙。还有他错了，还是坚持是对的。这玩意儿需要调吗？谢谢

DS的特点，就是很少做后期训练吧。。只做前期训练

披

披香侍女

5 个月

Lxh 发表于 2025-03-25 11:16
GPT 可以上图片，ds不行

DS电脑版就可以上传图片

yanle

5 个月

最近用的比较多，感觉ChatGPT 数据比较新，DS信息数据落后一点点

suixin111

5 个月

v3不是免费的吧

jjzatmac

5 个月

我总是连不上网络搜索啊

yangcongtou

5 个月

回复 1楼 helloterran4 的帖子
这不是最牛的，听说是连藏语版都能精准输出了

helloterran4

5 个月

平明寻白羽发表于 2025-03-25 11:05
英文文库是开源的。好像是脸书搞的。

大模型都是用整个互联网的文库来训练。之前"自杀"的Open AI吹哨人，他举报的就是openai用别人知识产权的代码牟利。
一次训练耗资几十亿的grok，提升就那么一点，也是因为互联网的高质量内容早已经用完了，没有进一步提升的空间。

yangcongtou

5 个月

回复 1楼 helloterran4 的帖子
侬观下
deepseek v3文档里面没有提，但实际上已经完美支持藏语了。

meetmylove2015

5 个月

deepseek老是说忙，不好用，还是用chatgtp多。

金

金银岛

5 个月

v3不是免费的吧
suixin111 发表于 2025-03-25 13:03

如果你装的是deepseek app，那自动就是使用V3了，因为这是服务端的更新，和客户端无关。免费的。

ca563

5 个月

zerohedgeNY 发表于 2025-03-25 08:55
我现在发现真的比ChatGPT 好用啊我是ChatGPT最早的一波付费用户现在已经全面转用deepseek 推理非常强很多事情考虑的要比chat 更佳全面和深入

我上个月也停了ChatGPT的月费，确实不值

小

小东西

5 个月

又开始了，炒作引流过头了。
现在最强模型是Google Gemini和Grok。

helloterran4

5 个月

小东西发表于 2025-03-25 13:52
又开始了，炒作引流过头了。
现在最强模型是Google Gemini和Grok。

笑死，这就是如何用一句话证明自己纯外行
你要是ai从业者，你自然知道DS V3这种非推理模型用600B参数达到这个效果的含金量
你要是ai用户，当然是用claude 搭配R1。Claude是目前大模型里智力密集最高，微调最好的。R1用来给Claude生成prompt，秒杀其他一切方案。
什么gemini，什么grok，用起来都狗屁不通。
网络上基于各家大模型的辅助工具多如牛毛，谁好用谁不好用早就有共识了。懂？

小

小东西

5 个月

靠这行吃饭的，比你懂多了。600B参数很少么？Gemma 3只用27B参数都差点进竞技场前10。Claude强在对代码overfit，程序员喜欢用，还智力密度。deepseek R1在中文训练素材的确更全，但论推理从发布就只是勉强到o1水平，现在早被o3-mini-high和Gemini-2.0-thinking超了，你还能继续炒作。

小

小东西

5 个月

代码生成一般默认是Claude Sonnet 3.5，其他的追求性价比的一般是Gemini，OpenAI太贵，Deepseek自家的infra太烂流量吃不到。你说给我听听哪些AI工具是用Deepseek做基座的。

deann

5 个月

bestcici 发表于 2025-03-25 11:19
一开始用Deepseek 也有连不上繁忙的情况，后来发现他们为了禁止网络攻击，只要是信箱登陆，就不会有连不上得情况！使用后更喜欢Deepseek ，因为逻辑更清晰，不是空洞泛泛地回答！

原来是这样。