DeepSeek重创硅谷!川普:是美国AI的一记当头棒喝

今日头条
Toutiao
最新回复:2025年1月28日 19点53分 PT
  返回列表
44911 阅读
75 评论
ettoday

▲美国总统川普对DeepSeek的横空出世持正面态度。

中国AI新创公司DeepSeek(深度求索)推出低成本、高效能的人工智慧模型,震撼整个矽谷与科技业。对于DeepSeek带来的冲击,美国总统川普27日表示,DeepSeek现象其实是好事一件,因为这一进展对美国的AI领域是一记当头棒喝,认为这既是一个挑战,也是一项资产,将推动美国企业改进技术以保持领先地位。

据路透社报导,川普27日在佛州发表谈话时指出,DeepSeek的横空出世应给美国敲响警钟,美国必须更专注于竞争,才能确保在AI领域的主导地位。不过,川普认为这一进展对美国AI是一件好事,因为随着中国找到更具成本效益的方法,就有助于美国降低开发成本,并实现相同结果。

川普认为,这将促使美国公司效仿,未来AI产业就不必再投入大量资金,进一步提升创新能力并降低资源消耗。他强调,美国拥有世界上最杰出的科学家,创新能力无可匹敌,即使是中国领导人也承认美国在科技领域的卓越地位,因此他认为中国AI技术的进步是一个「积极的发展」,将推动全球竞争,促使美国以更有效率的方式应对未来挑战。

在12月27日的美国股市中,DeepSeek的横空出世引发了市场震动。全球投资者因担忧中国的低成本AI模型对美国企业构成威胁,纷纷抛售科技股。

竞选
1 楼
竞争有利于发展。相信美国会开发更先进的产品,据说gpt-5就是下一代革命性产品。
竞选
2 楼
这位小姐把GPT 5吹得神乎其神: youtu.be/kilmBkNNLuw?si=9QSKvo3UlkCQIqnq
a
ajaychen_2024
3 楼
竞争有得于发展,应该松绑比亚迪和华为,大家一起作生意才是正道。
M
Maui2021
4 楼
如果松绑了,那trump就是中国安插的内奸。580亿美金trump没白买。 ajaychen_2024 发表评论于 2025-01-27 23:41:07竞争有得于发展,应该松绑比亚迪和华为,大家一起作生意才是正道。
a
ajaychen_2024
5 楼
反正是赚钱,不寒碜,两张美金,你能分出哪张美金是通共,哪张美金是通俄的? Maui2021 发表评论于 2025-01-27 23:48:59如果松绑了,那trump就是中国安插的内奸。580亿美金trump没白买。 ajaychen_2024 发表评论于 2025-01-27 23:41:07竞争有得于发展,应该松绑比亚迪和华为,大家一起作生意才是正道
蓝靛厂
6 楼
棒你个头。
m
maina
7 楼
ajaychen_2024 发表评论于 2025-01-27 23:41:07竞争有得于发展,应该松绑比亚迪和华为,大家一起作生意才是正道。 ====================================== 如果把科技竞争比作是一场排球赛,当发现对方找到更有效的进攻扣杀方法以后,除了需要提高自己的进攻能力,同时也要大幅提高自己的防守能力,比如封网的能力,去破环对方的进攻。只有这样才能使排球运动得以快速发展。
樊哙
8 楼
会干什么行业,什么行业就得完蛋,彩电冰箱空调摩托车机床高精钢手机电脑网购快递快送电车,人工智能再上一个台阶前面完蛋更快
橡皮潜艇
9 楼
美国在保持算力优势的同时,需要夺回算法优势。 中国的算力短板是硬伤。 川普说得对。
C
Capitaltwo
10 楼
川总突然发现孙正义之流都是捣糨糊的,AI其实比修墙容易多了。
d
duty
11 楼
这就是中国的神奇,一个巨大的AI泡沫就这样被一帮楞头青给戳破了。为了保护美国本土的AI产业,很可能Deepseek会被禁。TikTok差点儿被禁了,华为被禁了,大疆被禁了….Deepseek的命运如何恐怕难以预料。
荒野猎人
12 楼
DeepSeek利用较少且不够先进的芯片训练出了媲美ChatGPT的模型。DeepSeek在一份技术报告中称,它使用超过2000个英伟达H800芯片集群来训练其参数为6710亿的V3模型,而Meta训练参数量4050亿的Llama 3,用了16384块更强的H100显卡,花了54天。Deepseek的训练效率为Meta的11倍。DeepSeek表示,训练其最新模型之一的成本为560万美元(约合人民币4100万元)。相比之下,人工智能开发商Anthropic的首席执行官达里奥·阿莫迪 (Dario Amodei )去年提到的建立一个模型的成本为1亿至10亿美元。CNBC曾发文称:“DeepSeek-R1因其性能超越美国顶尖同类模型,且成本更低,算力消耗更少,引发了硅谷的恐慌。”但王话锋一转,谈到了中国人工智能企业可能为人工智能模型配备的GPU数量。他称,“中国的实验室拥有的H100芯片比人们想象的要多得多。”他补充道, “据我了解,DeepSeek拥有大约五万块H100芯片。”王认为,因为违反了美国实施的出口管制,所以DeepSeek不能谈论这些。英伟达的Hopper架构GPU如H100和H200,因其优秀的算力,出口受到美国政府的管制。拜登政府于2022年通过一项规定禁止英伟达向中国出售性能远超其旧款GPU A100 的GPU系列,迫使英伟达开发了名为H800和A800的性能削减版芯片用以替代,但一年后的2023年10月,这两款芯片也一并被禁止。目前,英伟达已在推广其最新一代Blackwell架构的GPU,其出口依然受到限制。王将中美之间的人工智能竞赛描述为一场“AI战争”,并补充道,“美国将需要大量的计算能力和基础设施,我们需要释放美国的能量以推动这场AI繁荣。”
a
airbus
13 楼
这几天我都在争取Deepseek注册,60秒钟有效的验证码,24小时才到。
a
ajaychen_2024
14 楼
DS开源的架构,怎么禁 duty 发表评论于 2025-01-28 01:03:59这就是中国的神奇,一个巨大的AI泡沫就这样被一帮楞头青给戳破了。为了保护美国本土的AI产业,很可能Deepseek会被禁。TikTok差点儿被禁了,华为被禁了,大疆被禁了….Deepseek的命运如何恐怕难以预料。
橡皮潜艇
15 楼
硬件才是硬道理。美国没有算法人才吗?搞算法不如人吗?deepseek算是惊醒了梦中人。下面的Ai战局更有看头了。
橡皮潜艇
16 楼
美国搞algorithm的巨头根本数不过来。有竞争才有乐趣。
a
ajaychen_2024
17 楼
在AI领域,特别是解决数学物理难题,是AMERICAN CHINESE vs CHINESE CHINESE
g
goodmum
18 楼
中国弱点是专制集权,政局不稳,团队不行,做芯片需要大量投资团队开发周期,是中国短板所以拼不过西方。单打独斗小规模是中国特长,所以软件中国能够抗衡,现在最好JavaScript的软件库都是中国大陆开发的,谷歌脸书都抢用,很多新的git代码库也是中国人写的,比传统的GitHub功能强。
k
kingofLiu
19 楼
懂王又懂了,第三任搞明白没
a
ajaychen_2024
20 楼
七八小时之前,DEEKSEEK 又发布了最新模型JANUS PRO,支持多模态模型,支持图片分析处理和图片生成。有人测试过后,多模态能力已经超过openAi
a
ajaychen_2024
21 楼
这个预设就已经错得离谱。专制集权怎么又会政局不稳?团队不行,怎么就能弄出让NASDAQ翻江倒海的DEEPSEEK?? goodmum 发表评论于 2025-01-28 01:37:00中国弱点是专制集权,政局不稳,团队不行
h
hachimada
22 楼
这会儿不忌讳谈“抄袭”了?哈哈。
荒野猎人
23 楼
控制了高算力的芯片出口,中国的ai根本竞争不过美国!据美国人工智能数据基础公司Scale AI创始人兼首席执行官Alexandr Wang在接受CNBC采访时称,DeepSeek拥有大约五万块英伟达H100芯片,但因美国出口管制措施,他们不能公开谈论。英伟达为了规避拜登政府的出口管制,又开发了H800芯片,deepseek就是用2000块H800训练出来的。马斯克已经发文说deepseek不诚实,指控其谎报芯片数量!
荒野猎人
24 楼
H800后来也禁止出口了
荒野猎人
25 楼
deepseek与马斯克的开发的ai都是开源模式,最新难堪的应该是马斯克!多年以来,每个高科技风头,马斯克总要刷刷存在感,插一杠子!
y
ypb001
26 楼
硅谷的一群骗子,绑架了整个美国股市,原来AI只值600万美元,等着崩盘吧
花和尚团
27 楼
恨中人士心在滴血????
花和尚团
28 楼
恨中人士心在滴血????
正人伪君子
29 楼
既然开源,有什么新算法? 主要是后面的数据支撑。计算速度和存储应该都不是问题。不知道有什么好恐慌的。
偶偶地来一发
30 楼
资本还没赚够就被打成白菜价了。
Y
Yummy2000
31 楼
算力这么牛叉的公司,这个也搞不定? ============================================ airbus 发表评论于 2025-01-28 01:06:42这几天我都在争取Deepseek注册,60秒钟有效的验证码,24小时才到。
Y
Yummy2000
32 楼
美国可以松绑比亚迪和华人,前提是:取消对比亚迪和华为的一切政府补贴,去除华为的政府和军方背景,然后在一个平台上公平竞争。 Tesla 秒杀比亚迪。比亚迪没有任何优势。 ========================================================= ajaychen_2024 发表评论于 2025-01-27 23:41:07竞争有得于发展,应该松绑比亚迪和华为,大家一起作生意才是正道
硅谷工匠
33 楼
我最高兴的是,中国把TEMU白菜价,一下砸给犹太骗子Altman! 这个犹太骗子的视频我看了不少,身边的印度人都很“牛逼”。我不喜欢中共,可是我喜欢中国人砸犹太人! altman的目的就是圈钱圈地,然后用所谓AGI的大饼去干宣传部梦想的龌龊事情。中国是另一个流氓团伙,我很喜欢看他们火并。
唠叨唠叨唠叨
34 楼
公平竞争才有益于发展。大墙国用人民币管制,出口强制换汇,政府补贴,非关税壁垒,低工资低福利这些手段把自己想发展的产业虹吸过去,大搞逐底竞争。要大家都来参与这种苦逼竞争是把世界带回到二战前的危险中去,必须反制。 大墙国的企业要想参与美国市场就到美国来投资生产,做不到就自己在墙内卷,别的地方卷,别来祸害美国。 ajaychen_2024 发表评论于 2025-01-27 23:41:07 竞争有得于发展,应该松绑比亚迪和华为,大家一起作生意才是正道。
硅谷工匠
35 楼
deepseek的核心新算法如下。他自己的模型是基于openai的回答的基础上。也就是说,他的模型用的就是“精料”。但是,deepseek省钱在于他用自己的精炼模型去量产synthetic data。也就是说,deepseek训练用的是人造数据。懂了? 但是,昨天华尔街狂跌,是因为大家都知道,AI就是一个骗子。中国的AI以后是骗子,犹太人的AI以后是民主党的。大家都知道,“AI”的狂热可以说完了,大家都冷静下。
w
wjhwsh
36 楼
中国内部培养的人才应对AI算法没有问题,没有海外学习工作背景也不是问题。中国奥数金牌获得者都是没出过过的。AI这个东西有个好的数学脑袋最重要,中国从来不缺
硅谷工匠
37 楼
美国皇帝是犹太人,在FED垂帘听政那位。犹太要世界大同,世界同看一个中央台(CNN),同用一个货币(数字美元),同用一个血汗工厂。犹太人在乎的不是什么世界首富,而是印钞权。只要我能合法印钱,我怕谁?什么民主法制都是犹太人的遮羞布和障眼法。这个犹太AI也是一个步骤。如果AI成功了,全世界的孩子都不需要再独立思考,每天吃睡打游戏就好。
相信事实
38 楼
DeepSeek的成功不过是一颗小小的缝衣针戳破了美国高科技的泡沫而已。美国的科技泡沫为什么能够这么大?因为美国号称研发AI需要投入几十亿几百亿,所以科技股就是所谓的高投入高回报,于是股价升上了天。 DeepSeek研发居然只有区区几百万,而运算性能则是美国的几十倍,这种超高性价比的东西并不是说它有多先进,而是说同样的东西并不是美国吹嘘的价钱,而是白菜价! 有了一个白菜价的比较,立刻就把美国科技的泡泡戳破了,以后美国还有谁投资几百亿去研发实际价值只有几百万的东西?
灭独者
39 楼
在浙江海清,我们去过几家做LV、爱马仕等仿冒包包的公司展览门市部,通过关系,买一个A货的LV只买300元人民币,成本也只有100元左右,买一个A货的爱马仕只要600元人民币,成本也就200元左右。所谓A货,就是仿造的很像真的。还要所谓B货。更便宜。所谓DeepSeek,也只是仿chatGPT和OPAI而已。中共有本身,自己搞出一个新的原创的发明,仿造出别人的东西,还说比别人的先进,更省钱,真是可耻至极。就像互联网是美国发明的,结果中共每年还召开世界互联网大会,真的很滑稽,更可笑的是中共的互联网与世界更不就不互连。
D
DANIU_S
40 楼
美国 AI 界企图伸手向政府要大钱发展高纬度 AI,政府现在可以告知他们了:不需要那么多钱,美国政府赤字已经太高!打仗就买中国的便宜大疆机器人,高科技就雇佣中国人,这样就貌似被中国人控制了吗?否也,美国控制的是美元,这是最厉害的武器!
正人伪君子
41 楼
很高兴AI被打回原型。 现在都在搞大数据,学生们不学习基本理论,专研新理论新方法,就用machine learning,理论数据, 就是一个博士论文。个人觉得机器能做很多事情,但永远不能取代人的创造思维。
硅谷工匠
42 楼
类似星球大战Luke一发炸弹干掉了死星。 类似中国把精炼人造毒品运进了美国,还顺便干掉了本土黑帮。 黑帮今天好慌。商业计划都要改写了。
T
TXZS
43 楼
懂王难得的清醒和理智,没有胡说八道,赞一个
w
worley
44 楼
以后OpenAI肯定会防止直接提取它们的数据(蒸馏)作为训练,那么就deepseek只能去提取那些开源模型的数据。 最终很可能没有开源项目愿意花几十亿美元去整理数据了,因为会被deepseek直接免费提取。
h
haoyahaoya
45 楼
灭独者 发表评论于 2025-01-28 06:24:33 更便宜。所谓DeepSeek,也只是仿chatGPT和OPAI而已。中共有本身,自己搞出一个新的原创的发明,仿造出别人的东西,还说比别人的先进,更省钱,真是可耻至极。就像互联网是美国发明的,结果中共每年还召开世界互联网大会,真的很滑稽,更可笑的是中共的互联网与世界更不就不互连。 &&&&&&&&&&&&&&&& 看把您气的,人家DS都开原了,任何人都可以去查看呀,谁模仿谁一看便知。而且人家欢迎其他人模仿。
朝露青
46 楼
相当于历史上纳粹德国抢先实验成功核弹?英美这次要玩儿完了?
硅谷工匠
47 楼
“以后OpenAI肯定会防止直接提取它们的数据(蒸馏)作为训练,那么就deepseek只能去提取那些开源模型的数据。 最终很可能没有开源项目愿意花几十亿美元去整理数据了,因为会被deepseek直接免费提取。” 是的。这些数据本来就是各种街头小报比如纽约时报采集的垃圾,现在是精炼的垃圾。但是,大家都是有政治倾向的建模型,所以都是可疑。 说实话,全互联网scrape只要一次也就够了,没必要每一个小公司都去取一次。中国公司很聪明,一个犯罪团伙抢了另一个团伙的地盘,俗话叫“砸场子”。
硅谷工匠
48 楼
“人家DS都开原了” DeepSeek只是代码给你看看。海量数据和几万亿的parameter不开源,就想给你一个特斯拉的图纸让你去造车,就是要你上钩而已。类似卖毒品的让你“先尝后买”。
时不时来看看
49 楼
“美国拥有世界上最杰出的科学家,创新能力无可匹敌” 川总能意识到人才的关键性作用,是难能可贵的,一定要留住人才,收回用于美化中共的16亿傻钱,可以留住100位高级AI人才工作10年,太划算了 16亿傻钱让一些傻人说傻话谎话,一点都不划算
d
duffer
50 楼
DeepSeek 看来只是一个小浪花,有利于AI 的竞争发展,目前就是这样。
E
Ela
51 楼
FaceBook 真不该公开server源代码。
在河边
52 楼
DEEPSEEK的8个模型进行了MIT授权开源,并且在论文里比较详细的公布了细节参数及过程. 今后各个小开发者可以得到授权下在平台下进行各类应用开发并推广,今后DEEPSEEK的经济利益也是有很大前景的. 所以deepseek对chatgpt形成了巨大冲击,闭源与长信息链产品可能是路线错了. 当然即使deepseek成功,也是会更进一步促进硬件的更多采用,只是采用模式会改变.
t
theriver1
53 楼
昨晚仔细研究了一下DeepSeek-R1,终于冷静下来了。现在基本上倾向于DeepSeek是AI拼多多的说法。因为DeepSeek算法根本就没有什么自己的革命性的创新!它只不过是集成了以下一系列美国人发明(都是美国公司公开发表的论文和技术)的成熟或不太成熟的优化算法的架构模型和创新,最终达到靠压缩整体工作量和压榨每个任务(不让任务闲下来)的路径来最大限度地降低算力资源的成本: 1.MLA多层注意力架构 2.FP8混合精度训练框架 3.DualPipe跨节点通信 4.无辅助损失的负载均衡策略 5.跨节点全对全通信内核 6.MTP技术 7.数据精筛 8.DeepSeek-R1蒸馏 其中最重要的是前两个架构,它们都是为了压缩工作量的,也是其与ChatGpt等美国公司大模型的最主要区别。
w
worley
54 楼
DeepSeek使用的是ChatGPT高质量的数据,所以它的模型并不通用。 因为并不能保证总能免费获取高质量数据。 ChatGPT o1的那些物理、化学、数学、计算机竞赛的数据和答案,是花了很多数据工程师整理的,一些是付费购买的,一些是雇佣专业人士帮助生成的,然后用于机器学习。而DeepSeek可以不花钱就使用。 但是OpenAI也不是傻瓜,肯定会限制住盗取数据。
硅谷工匠
55 楼
"相当于历史上纳粹德国抢先实验成功核弹?英美这次要玩儿完了?" It's like Mao's team invented synthetic Heroin in YanAn and disrupted Britain's monopoly on Heroin trade.
在河边
56 楼
chatgpt数据库什么时候公开了?公开的数据库在哪里? openai公司早期产品是模型开源的,但是数据库一直是私有的,并未公开.
蓝天大地
57 楼
DS只不过是个Distill流程而已。我对软件一窍不通,但却对3D建模感兴趣。 最近在做一个地球模型玩,于是我花了很大的时间和资源(create a mesh,UV mapping,material,shading,geometry modification,etc.)把这个地球做出来了。 但我的牌友跟我说,这个地球上的澳洲地区森林覆盖面不够广,要再加点绿色。他就把我的模型拿过去,用shading nodes加了点绿色,使我的这个地球更漂亮些了。这个地球就是ChatGpt,这个朋友做的就是DS。 但是,如果我不把这个地球模型给他,他就不能让这个地球更漂亮。所以,DS根本不算什么。 所以说,DS对NVDIA的芯片根本没有影响,华尔街那帮人不懂技术,过一阵子NVIDIA的股票就会涨回来。因为,pre-training & post-training,任然需要很多的芯片。 更进一步说,类似DS的东西有可能反而会更加推进对NVIDIA芯片的需求。DS最大的贡献在于细分化(segmentation),这就给跟多专业的细分化公司提供了机会。它们单个公司所需要的芯片也许不多,但是如果有很多各类做细分化为专长的公司出现,那么累计起来对NVIDIA芯片的需求还是会越来越大。 所以,我继续看好NVIDIA,ChatGpt这类公司的前途! 毛毛们可以闭嘴了。哈哈哈哈哈哈。
w
worley
58 楼
@在河边 就是直接使用chatgpt的答案,进行机器学习。假设chatgpt就是专家或老师,提取知识,所以deepseek很多问题的答案跟chatgpt一模一样。
硅谷工匠
59 楼
"DS只不过是个Distill流程而已。我对软件一窍不通,但却对3D建模感兴趣。" No my friend, Deep Seek has built an even bigger earth than yours, from their distilled model. They built a synthetic model already, they don't need ChatGPT model anymore. My model is more fake then yours. That is the point of DS to Open AI.
硅谷工匠
60 楼
"chatgpt数据库什么时候公开了?公开的数据库在哪里? openai公司早期产品是模型开源的,但是数据库一直是私有的,并未公开." My friend, they don't need ChatGPT database. All they need is to ask ChatGPT questions and record the answers.
在河边
61 楼
你讲的路数下,DEEPSEEK恐怕花的训练费用比CHATGPT要高许多倍。仅仅靠结果反推数据库的工作就是海量工作,比自己建立要困难与费用高许多。 明显的是DEEPSEEK模型是种技术进步与开创了新思路,为何以政治色彩来评价?
w
worley
62 楼
@在河边 机器学习分为有答案学习,无答案学习。 其中有答案学习是最简单的。就相当于你有一个教授,总能回答你的问题。 无答案学习,就是没有教授,自己寻找答案,是最难的。 Deepseek就是把chatgpt当成教授,免费的。 (术语是:监督学习,无监督学习)
钟安山
63 楼
deepseek只是中美竞争的开始,未来关键是人才。中国的年轻工程师数字庞大,80,90后年轻人对西方对美国无感,不再向往。美国政策也很奇葩,禁止中国理工科学生到美国留学。美国付国务卿已经公开宣布不欢迎中国学生到美国学习理工科,只学文科。可以想象10,20以后,美国只能靠印度人撑着,印度人擅长PPT,搞科研还是中国人强。想想10以后,结论早已有了。
t
theriver1
64 楼
各种优化算法都有自己的优缺点,不同的公司采取不同的优化思路,说白了就是在性能、价格和结果上达到“符合本公司目标”的平衡。比如Deepseek-R1不同于ChatGPT的架构-FP8混合精度训练框架,这里的FP8就是二进制里8个比特位,位数越多代表精度越高,ChatGPT是32位和16位,Deepseek-R1是8位,这就比ChatGPT少了一半的计算量和内存,由此带来的精度误差用“混合精度”来弥补(对于精度要求高的数据,先用类似四舍五入的方法快速计算,再每128个数的结果交给32位的会计程序精算),最终大大压缩了计算量,但是精度肯定远远不如ChatGPT。这种方法就是DS在平衡了性价比和结果后选择的偏向性价比的优化思路。
湾区范儿
65 楼
别忘了中国十多年前还研制成了最先进的汉芯芯片呢。
在河边
66 楼
@硅谷工匠 发表评论于 2025-01-28 09:04:04 My friend, they don't need ChatGPT database. All they need is to ask ChatGPT questions and record the answers. ----------- 你不理解什么是AI模型与训练及数据库关系,根本不是问题与答案的机械联结。无真正的错综复杂的数据库源数据(包括干扰数据),AI模型不可能被验证。靠CHATGPT的问题与答案数据是不可能产生源数据库的,产生的也不是实际数据库,误差率也十分巨大。
a
ajaychen_2024
67 楼
Deepseek的出现虽然不能算是AI界的从零到一的创新性突破,也时从一到一百之间的重大飞跃,它在原有的基础上找到了一个最优化的方案,省钱省时高效,而美国那些大厂和一众硅谷精英们只会一味堆算力和大量砸钱,如果没有DS的出现,人们还会一直以为AI发展只能是这种模式呢。另外DS的开放性,本地化,能让高高在上的ai大众化,平民化,不再令人高攀不起。这个由DS训练出来的小模型,让很多第三世界国家也可以有一个十分有效有便宜的实用工具,而不是动辄几亿的被美国垄断的AI大模型。说它是一场赛博共产主义活动也不为过。 灭独者 发表评论于 2025-01-28 06:24:33在浙江海清,我们去过几家做LV、爱马仕等仿冒包包的公司展览门市部,通过关系,买一个A货的LV只买300元人民币,成本也只有100元左右,买一个A货的爱马仕只要600元人民币,成本也就200元左右。所谓A货,就是仿造的很像真的。还要所谓B货。更便宜。所谓DeepSeek,也只是仿chatGPT和OPAI而已。中共有本身,自己搞出一个新的原创的发明,仿造出别人的东西,还说比别人的先进,更省钱,真是可耻至极。就像互联网是美国发明的,结果中共每年还召开世界互联网大会,真的很滑稽,更可笑的是中共的互联网与世界更不就不互连。
拾麦客
68 楼
华为之前不是牛逼哄哄出新手机?后来呢?这种把戏瞒老外还行
硅谷工匠
69 楼
在河边 我的理解是synthetic data就是一个人造的假数据库,还可以掺人造噪音。查下synthetic data 就好。这就是说建模型用的就是人造数据。人造数据可以很大很干净。
a
ajaychen_2024
70 楼
华为云MaaS已适配昇腾版DeepSeek大模型上线。另外,DeepSeek的大模型也适配MATE60手机。DS将发展出基于华为自研的GPU的大模型
l
levinzx
71 楼
都说是美国的威胁,但最瑟瑟发抖的不应该是国内其他搞人工智能的公司吗?
在河边
72 楼
@theriver1 发表评论于 2025-01-28 09:44:09各种优化算法都有自己的优缺点,不同的公司采取不同的优化思路,说白了就是在性能、价格和结果上达到“符合本公司目标”的平衡。比如Deepseek-R1不同于ChatGPT的架构-FP8混合精度训练框架,这里的FP8就是二进制里8个比特位,位数越多代表精度越高,ChatGPT是32位和16位,Deepseek-R1是8位,这就比ChatGPT少了一半的计算量和内存 ---------- 2的8次方是256,2的16次方是65536;F16的浮点位数比F8的浮点位数多了256倍,而不是多了1倍。 用F8并不一定数据精度会比F16低256倍,要看数据要求的精度设定以及数据运算模式(多个F8的并连运行也可以)。 例如一个距离为1公里的距离数据,如果数据精度要求为0.01毫米,那么用F8或者F16无区别;如果是1万公里,精度仍然要求0.01毫米,恐怕一个F8就无法运行(位数不够 1万公里/0.01毫米),但是可以把1万公里拆分为数段进行运行;F16可以单个运行。 很多情况并不需要F16能力,也没必要把数据精度搞的很高。 拾象创始人兼CEO李广密,组织了一场关于 DeepSeek的专家闭门讨论会,公开了86点要点,大体是:DeepSeek最重要的事是push智能;拆分后并联运行,并放弃多模态,提高适用范围与速度;第一个把复现 MoE、o1 等发出来,胜在做的早;AI 类似阶跃函数,现在做追赶者的算力需求少了 10 倍,在探索方向的时候,花 1 万张卡的效果不一定比 1 千张卡好,但可能会有一个门槛;DeepSeek 带来的最大的震撼不是开源或者低成本,而是不需要做 SFT了;DeepSeek 在数据标注上的投入是模型效率好的关键之一;在蒸馏和技术路线上,R1 带来的震撼不如 AlphaGo,但在商业上,出圈能力比 AlphaGo 要好很多;R1 和 V3 带来的低成本、高效果,说明这是一个方向,和另一个扩硬件、涨参数的方向是不冲突的,国内是受到限制只能走前者;开发者是否会从闭源模型迁移至 DeepSeek?目前看还没出现大批迁移,因为领先模型的 coding 指令遵循能力是比较有利的,但不确定这一优势在未来是否会被攻克;DeepSeek 的出现让大家开始质疑英伟达(NVIDIA)和 OpenAI 最新的 500B 叙事。训练资源问题目前还没有清晰判断,OpenAI 的 500B 叙事是给自己加救命稻草;DeepSeek 短期对美国 AI 圈冲击大,短期上对股价有影响:pretrain 需求增速放缓,post-train 和 inference scaling 还没有足够快地 scale up,在相关公司的叙事上会有一个 gap;如果能力差不多,对闭源是挑战;无限长度的 reasoning 可能是一个愿景。
t
theriver1
73 楼
在河边 发表评论于 2025-01-28 11:35:04 2的8次方是256,2的16次方是65536;F16的浮点位数比F8的浮点位数多了256倍,而不是多了1倍。 ------------- 非常感谢您的超详细解释。本人获益匪浅。我这里所说的DS的FP8比chatgpt的FP16少了一半的计算量,不是说少了一半的数据。因为FP8的计算吞吐相比FP16提升了两倍,所以FP8低精度训练能比F16快两倍,节省50%-75%的内存占用,以及节省50%-75%的数据通信量,从而有助于模型的优化和压缩,进一步降低部署成本。
r
reno2389
74 楼
“不过,川普认为这一进展对美国AI是一件好事,因为随着中国找到更具成本效益的方法,就有助于美国降低开发成本,并实现相同结果。” ----------------- 根本就不可能!美国的“资本主义”根本就打不过中国的“社会主义”! 美国IT公司的员工拿着高额工资,却work at home。中国的IT公司的员工拿着相对着很低的工资,却996。 中国员工的效率是美国员工效率的20倍以上,美国怎么和中国竞争?
w
wanghbhb
75 楼
当年前苏联同样也在航天和军事不少领域里领先美国。这也不奇怪。美国不可能在所有领域都一直领先。不过两国政治和意识形态的差异决定了最后肯定是美国会继续领先。