Altman赞DeepSeek"表现出色"曝OpenAI不同路径

今日头条
Toutiao
最新回复:2025年1月28日 12点7分 PT
  返回列表
37611 阅读
29 评论
ettoday

▲ChatGPT之父阿特曼大赞DeepSeek「表现出色」。

中国AI新创公司DeepSeek(深度求索)以惊人低成本实现与OpenAI等巨头相媲美的性能的AI模型,引发美股大地震。主要对手OpenAI的执行长阿特曼(Sam Altman)27日大赞,DeepSeek新的AI模型R1「表现出色」,但强调OpenAI依然相信,强大的运算能力是推动AI进步的核心,为全球目前就AI成本与效率沸沸扬扬的讨论提供了新的视角。

据路透社报导,DeepSeek今年1月20日推出新的AI模型,以区区560万美元打造出能力不亚于美国科技巨头OpenAI的GPT-4、Meta的Llama,以及Google的Gemini等顶级模型的R1,成本不过是其他科技巨头的零头,挑战了以高成本计算能力为主导的市场模式,震撼矽谷与华尔街。

阿特曼27日在社群平台X上称赞DeepSeek-R1的创新令人期待,但他同时强调,OpenAI依旧认为强大的运算能力才是AI成功的关键。他表示,「DeepSeek-R1的表现出色,尤其他们能以这样的价格提供服务,令人留下深刻的印象。不过,重要的是,我们将继续执行OpenAI的研究,因为我们相信更强大的运算比以往任何时候都重要。」

阿特曼的言论表明,他对大规模运算资源在推动AI模型进一步智能化上的作用充满信心,也为市场对低成本模式的过度反应提供了冷静的平衡观点。阿特曼强调,世界未来绝对会大量使用AI,「我对下一代模型的来临感到好奇,也期待为大家带来人工通用智能(AGI)及更多崭新的成果。」

X
XM25
1 楼
我和国内网友合作,问了两个物理问题,第二个问题非常个性化,是我自己的猜想或者胡扯。结果回答非常相像,连鼓励我的方式和要点都一样。怀疑不懂的问题,直接问ChatGPD,改写一下回国内网友。如果真是这样,那就是另一个龙芯。
X
XM25
2 楼
如果真是这样,我是第一个发现的哈!
荒野猎人
3 楼
deepseek虽然是开源模式,但无疑通过了政府的相关审查。deepseek的表现是最好的,与chapgpt处于同一水平,但经过中国政府审查后有可能演变成一部巨大的宣传工具!
东北爷们
4 楼
还能怎么说?不能承认投资失败
X
XM25
5 楼
如果它不懂就去问ChatGPD, 那它根本不需要训练大模型,当然也不需要那么多算力和金钱。
m
maina
6 楼
我的理解是deep seek表现出色,如果配备更高算力的硬件表现会更出色,所以更高算力的芯片还是会抢手的。
h
hachimada
7 楼
胡说,这论坛里很多喷子都证实了DeepSeek是假的!是Deepshit!哈哈。
s
slipknot
8 楼
不要秀下限了,人家开源的,华尔街人都比你傻
欧洲知青
9 楼
中文版有审查,英文版没有,不要用Qwen 荒野猎人 发表评论于 2025-01-28 01:40:00 deepseek虽然是开源模式,但无疑通过了政府的相关审查。deepseek的表现是最好的,与chapgpt处于同一水平,但经过中国政府审查后有可能演变成一部巨大的宣传工具!
m
mcsquare
10 楼
看看哪个赚钱最快最多吧。别的都是瞎扯。电动车就是一个实力:只有马斯克赚钱多。哈哈哈。
正人伪君子
11 楼
这种AI主要是Data。既然开源,不就知道算法了,有什么先进的。
c
ca_lowhand
12 楼
meta已经在全面研究ds的思路,相信美国大厂会在短期内推出超越ds技术的产品
梦想天空
13 楼
这哥们费了不少力气才把open ai从开源转成闭源收费,结果自己收费的产品竟然比不上一群刚毕业学生搞的开源免费产品,确实有点儿尴尬
竹天
14 楼
刚问了chatgpt and deepseek 一个高中数学tan题。两者答案不同,DS给了不知所云的长长刷屏的过程。
闲看江湖
15 楼
大势所趋,势不可挡。下一步就是匹配匹配该算法的硬件拓扑结构硬件的提升。中国算力仅仅打开半扇门。
弯刀月
16 楼
这个精油被套上了GPT之父?貌似这个行业不需要科学家,数学家,奥数天才。
D
DANIU_S
17 楼
Deepseek 最主要的贡献是免费开源、省钱,对科技界多少都是个贡献。而且创始人梁文锋,还是个20 几岁的小朋友。
灭独者
18 楼
在浙江海清,我们去过几家做LV、爱马仕等仿冒包包的公司展览门市部,通过关系,买一个A货的LV只买300元人民币,成本也只有100元左右,买一个A货的爱马仕只要600元人民币,成本也就200元左右。所谓A货,就是仿造的很像真的。还要所谓B货。更便宜。所谓DeepSeek,也只是仿chatGPT和OPAI而已。中共有本身,自己搞出一个新的原创的发明,仿造出别人的东西,还说比别人的先进,更省钱,真是可耻至极。就像互联网是美国发明的,结果中共每年还召开世界互联网大会,真的很滑稽,更可笑的是中共的互联网与世界更不就不互连。
c
ca_lowhand
19 楼
ds的训练过程有不少新东西。一些还在理论验证阶段的ai理论它都拿出来实验并且结果都挺好。它使用chatgpt做训练员所以最终性能不能超越GPT,但看它的推理步骤和GPT完全不同,用另一种极低成本的方式实现了比拟GPT的推理能力。
西
西门雪
20 楼
回复:‘竹天 发表评论于 2025-01-28 05:40:48 刚问了chatgpt and deepseek 一个高中数学tan题。两者答案不同,DS给了不知所云的长长刷屏的过程。’ **================** DS===dick shit !!
西
西门雪
21 楼
中国新五大【发明】 高铁 共享单车 网购 移动支付 DICK SHIT
大河边的人
22 楼
民兵偶尔也可以用最低成本干出正规军的大事,但要使得AI成长能够办大事,还得靠装备齐全不缺经费的正规军。何况目前AI的效能还非常低下,当个玩具不错,但很多事情不能信赖。
海湾1013
23 楼
楼下 大河边的人 真酸!
t
theriver1
24 楼
昨晚仔细研究了一下DeepSeek-R1,终于冷静下来了。现在基本上倾向于DeepSeek是AI拼多多的说法。因为DeepSeek算法根本就没有什么自己的革命性的创新!它只不过是集成了以下一系列美国人发明(都是美国公司公开发表的论文和技术)的成熟或不太成熟的优化算法的架构模型和创新,最终达到靠压缩整体工作量和压榨每个任务(不让任务闲下来)的路径来最大限度地降低算力资源的成本: 1.MLA多层注意力架构 2.FP8混合精度训练框架 3.DualPipe跨节点通信 4.无辅助损失的负载均衡策略 5.跨节点全对全通信内核 6.MTP技术 7.数据精筛 8.DeepSeek-R1蒸馏 其中最重要的是前两个架构,它们都是为了压缩工作量的,也是其与ChatGpt等美国公司大模型的最主要区别。
蓝天大地
25 楼
完全同意。DS只不过是个Distill流程而已。我对软件一窍不通,但却对3D建模感兴趣。 最近在做一个地球模型玩,于是我花了很大的时间和资源(create a mesh,UV mapping,material,shading,geometry modification,etc.)把这个地球做出来了。 但我的牌友跟我说,这个地球上的澳洲地区森林覆盖面不够广,要再加点绿色。他就把我的模型拿过去,用shading nodes加了点绿色,使我的这个地球更漂亮些了。这个地球就是ChatGpt,这个朋友做的就是DS。 但是,如果我不把这个地球模型给他,他就不能让这个地球更漂亮。所以,DS根本不算什么。 所以说,DS对NVDIA的芯片根本没有影响,华尔街那帮人不懂技术,过一阵子NVIDIA的股票就会涨回来。因为,pre-training & post-training,任然需要很多的芯片。 更进一步说,类似DS的东西有可能反而会更加推进对NVIDIA芯片的需求。DS最大的贡献在于细分化(segmentation),这就给跟多专业的细分化公司提供了机会。它们单个公司所需要的芯片也许不多,但是如果有很多各类做细分化为专长的公司出现,那么累计起来对NVIDIA芯片的需求还是会越来越大。 所以,我继续看好NVIDIA,ChatGpt这类公司的前途! 毛毛们可以闭嘴了。哈哈哈哈哈哈。 ------------------------------------------------------------ theriver1 发表评论于 2025-01-28 08:21:51
t
theriver1
26 楼
各种优化算法都有自己的优缺点,不同的公司采取不同的优化思路,说白了就是在性能、价格和结果上达到“符合本公司目标”的平衡。比如Deepseek-R1不同于ChatGPT的架构-FP8混合精度训练框架,这里的FP8就是二进制里8个比特位,位数越多代表精度越高,ChatGPT是32位和16位,Deepseek-R1是8位,这就比ChatGPT少了一半的计算量和内存,由此带来的精度误差用“混合精度”来弥补(对于精度要求高的数据,先用类似四舍五入的方法快速计算,再每128个数的结果交给32位的会计程序精算),最终大大压缩了计算量,但是精度肯定远远不如ChatGPT。这种方法就是DS在平衡了性价比和结果后选择的偏向性价比的优化思路。
b
bsmile
27 楼
theriver1 发表评论于 2025-01-28 08:21:51 昨晚仔细研究了一下DeepSeek-R1,终于冷静下来了。现在基本上倾向于DeepSeek是AI拼多多的说法。因为DeepSeek算法根本就没有什么自己的革命性的创新!它只不过是集成了以下一系列美国人发明(都是美国公司公开发表的论文和技术)的成熟或不太成熟的优化算法的架构模型和创新,最终达到靠压缩整体工作量和压榨每个任务(不让任务闲下来)的路径来最大限度地降低算力资源的成本: 1.MLA多层注意力架构 2.FP8混合精度训练框架 3.DualPipe跨节点通信 4.无辅助损失的负载均衡策略 5.跨节点全对全通信内核 6.MTP技术 7.数据精筛 8.DeepSeek-R1蒸馏 其中最重要的是前两个架构,它们都是为了压缩工作量的,也是其与ChatGpt等美国公司大模型的最主要区别。 ========== 可以解释一下为什么deepseek比chatGPT快那么多吗?还有,chatGPT没有开源的,deepseek是如何和chatGPT建立交互的?
b
bsmile
28 楼
theriver1 发表评论于 2025-01-28 08:21:51 昨晚仔细研究了一下DeepSeek-R1,终于冷静下来了。现在基本上倾向于DeepSeek是AI拼多多的说法。因为DeepSeek算法根本就没有什么自己的革命性的创新! ======== 还有一个问题,是下载的deepseek在没有下载chatGPT的app的机器上也能顺利运行,这似乎看起来和chatGPT没有关系,请帮助解惑一下
不可以使用
29 楼
bsmile 发表评论于 2025-01-28 10:16:05还有一个问题,是下载的deepseek在没有下载chatGPT的app的机器上也能顺利运行,这似乎看起来和chatGPT没有关系,请帮助解惑一下 ----------------------------------- 能问这个问题,证明你纯粹IT白吃,如果有调用,你以为调用是在客户端调用的?就你这水平就别参与这个级别的讨论了。