为什么美国没有物理数学大牛搞AI算法 or 训练？ - 2025年1月29日北美华人网存档

Dingmoren2 发表于 2025-01-28 21:13
我作为外行，天然认为高科技AI领域美国领先一大截。DeepSeek 让人意识到已经追平了。以往的经验是中国追平一个领域，基本这个领域就没有什么欧美的事情了。难道AI领域也会步这条老路吗？当然A I有一点例外，软件被追平，如果芯片能拖住中国后腿，中国还是没那么容易独霸该领域。

谁说的，阿里、百度、腾讯哪个干掉美国了？

Lamajia

7 个月

你们懂不懂什么叫蒸馏distill？

Dingmoren2

7 个月

谁说的，阿里、百度、腾讯哪个干掉美国了？
Hunopupulowawo 发表于 2025-01-28 21:15

A I是工具影响各行各业，工具便宜好用，基本就不会用其他家的了。

Harenough

7 个月

mjtalk 发表于 2025-01-28 21:09
我更好奇为什么欧洲国家没有搞出先进的AI，中国这个小startup也就是十个人左右，按说法国人德国人数学都挺好的

说是上百人，founder好像有10来个的样子。

白

白河之子

7 个月

你们懂不懂什么叫蒸馏distill？
Lamajia 发表于 2025-01-28 21:18

就是选一些高质量数据？
----
蒸馏（Distillation）在AI和机器学习领域，通常指的是知识蒸馏（Knowledge Distillation），它是一种模型压缩技术，用于让一个小模型（称为学生模型）学习一个大模型（称为教师模型）的知识，从而在保持高精度的情况下减少计算成本和存储需求。
知识蒸馏的基本原理 教师模型（Teacher Model） 一个训练好的大模型，通常是一个性能很强但计算开销大的深度神经网络。 学生模型（Student Model） 一个较小的模型，目标是学习教师模型的行为，使其在计算能力受限的情况下仍能取得不错的效果。 软标签（Soft Labels） 在普通训练中，模型输出的类别通常是硬标签（如0或1），但在蒸馏过程中，教师模型会输出一个软概率分布（Softmax 输出的数值），学生模型学习这些软标签，比学习单一的硬标签信息量更丰富。 蒸馏损失（Distillation Loss） 通过计算学生模型和教师模型之间的输出差异（通常使用交叉熵或均方误差），来优化学生模型，使其逐渐接近教师模型的性能。 知识蒸馏的应用 减少模型大小，提高运行效率（如在移动端或边缘设备上运行AI） 提高小模型的泛化能力（学生模型能更好地学习教师模型的知识） 多模型融合（多个教师模型的知识可以合并到一个学生模型中） 举个例子 假设你有一个大型BERT模型（如GPT-4）用于文本分类，但它计算量太大。可以用蒸馏的方法训练一个小型的BERT（如TinyBERT），让它学习GPT-4的知识，从而在计算资源受限的情况下依然保持较高的准确率。这个概念类似于老师教学生，学生不用完全复制老师的所有知识，但能掌握关键点，以较小的认知负担达到接近老师的水平。

shubashuba

7 个月

回复 2楼 mjtalk 的帖子
DeepMind是欧洲公司啊！

白

白河之子

7 个月

shengshengman 发表于 2025-01-28 20:33
还是我孤陋寡闻了？

因为AI没有高深理论
传统的高深理论要么是弦论，模，流型等抽象数学理论，AI不需要
数学物理大牛也不擅长这个
AI就是工程数学，高数+概率统计+线性代数
连微分方程好像都不怎么用
应用数学家也许可以

王

王力宏

7 个月

因为美国的数学物理大牛在搞金融扎快钱啊

jerrylancer

7 个月

蒸馏一下，没啥厉害的。基础还是之前的那些，不过加剧各大厂商内卷是趋势。消费者有福气了

rapida

7 个月

mjtalk 发表于 2025-01-28 21:09
我更好奇为什么欧洲国家没有搞出先进的AI，中国这个小startup也就是十个人左右，按说法国人德国人数学都挺好的

R1 文章后面的署名有3位数。不过话说回来，core contribuyors确实就10几号人。兵贵精不贵多。人员一多，协调人员的代价使得边际效益迅速递减。

Namama

7 个月

shengshengman 发表于 2025-01-28 20:33
还是我孤陋寡闻了？

因为OpenAI的ChatGPT横空出世，背后的逻辑就是力大出奇迹，通过投入海量算力训练，从量变引发质变。
这条路被OpenAI走通了，而之前的一系列迭代，也一再证明，用更庞大的算力去训练更大的模型 = 更高的性能这就造成了路径依赖
特别是美国不缺芯片也不缺钱，所以各大厂纷纷砸巨资采购Nvidia芯片开始以同样方式训练各自的大模型
中国芯片被封锁，算力被美国锁死，不可能走力大砖飞的路子所以不得不在算法上下功夫，结果获得突破

Namama

7 个月

Hunopupulowawo 发表于 2025-01-28 21:13
所以这玩意也是神奇了。要说是抖音、百度、阿里、腾讯搞出来的也靠谱点，这玩意真神了奇了。

因为有钱的大厂，都跟随美国人的路子，去搞力大砖飞的传统大模型了。。

calculus

7 个月

王力宏发表于 2025-01-28 21:31
因为美国的数学物理大牛在搞金融扎快钱啊

你是说Simons吗

Namama

7 个月

calculus 发表于 2025-01-28 23:32
你是说Simons吗

数学大牛去金融赚钱不丢人
DS也是对冲基金在股市上割韭菜赚了钱以后搞的副业，

minqidev

7 个月

就是选一些高质量数据？
----
蒸馏（Distillation）在AI和机器学习领域，通常指的是知识蒸馏（Knowledge Distillation），它是一种模型压缩技术，用于让一个小模型（称为学生模型）学习一个大模型（称为教师模型）的知识，从而在保持高精度的情况下减少计算成本和存储需求。
知识蒸馏的基本原理 教师模型（Teacher Model） 一个训练好的大模型，通常是一个性能很强但计算开销大的深度神经网络。 学生模型（Student Model） 一个较小的模型，目标是学习教师模型的行为，使其在计算能力受限的情况下仍能取得不错的效果。 软标签（Soft Labels） 在普通训练中，模型输出的类别通常是硬标签（如0或1），但在蒸馏过程中，教师模型会输出一个软概率分布（Softmax 输出的数值），学生模型学习这些软标签，比学习单一的硬标签信息量更丰富。 蒸馏损失（Distillation Loss） 通过计算学生模型和教师模型之间的输出差异（通常使用交叉熵或均方误差），来优化学生模型，使其逐渐接近教师模型的性能。 知识蒸馏的应用 减少模型大小，提高运行效率（如在移动端或边缘设备上运行AI） 提高小模型的泛化能力（学生模型能更好地学习教师模型的知识） 多模型融合（多个教师模型的知识可以合并到一个学生模型中） 举个例子 假设你有一个大型BERT模型（如GPT-4）用于文本分类，但它计算量太大。可以用蒸馏的方法训练一个小型的BERT（如TinyBERT），让它学习GPT-4的知识，从而在计算资源受限的情况下依然保持较高的准确率。这个概念类似于老师教学生，学生不用完全复制老师的所有知识，但能掌握关键点，以较小的认知负担达到接近老师的水平。
白河之子发表于 2025-01-28 21:24

没那么简单，就好比，难道别人不懂蒸馏。
那么多数据，为什么能如此快的训练出来，也就是说，他们那一波人甚至改了硬件，或者直接使用GPU的硬件语言而且绕过了，英伟达显卡的应用层。这个deepseek厉害的，并不是他现在的知识会怎么样，因为经过训练的模型，他自己可以学习，至于学的什么已经不重要的。
我们就用吨做单位把， openai,训练1万吨的数据，需要1年才能完全训练完。但是deepseek只用了3个月。这就是差距。这个就是deepseek能做到便宜的原因，因为他训练时间更少，节省的能源更多，而且还开源，更重要的是， openai不开源，openai用的数据也不告诉你。

clam

7 个月

作业都抄人家的，还问人家牛人在哪。

magnoliaceae

7 个月

mjtalk 发表于 2025-01-28 21:09
我更好奇为什么欧洲国家没有搞出先进的AI，中国这个小startup也就是十个人左右，按说法国人德国人数学都挺好的

欧洲生活太安逸了，福利太好了，贫富差距小，人没有动力干活，中国美国贫富差距很大，人有动力才会卷出成绩出发明创造，欧洲日本的模式，创新力比不上美国这种残酷的丛林法则he

UncleSammy

7 个月

shengshengman 发表于 2025-01-28 20:33
还是我孤陋寡闻了？

都去华尔街骗钱去了

magnoliaceae

7 个月

Namama 发表于 2025-01-28 23:29
因为OpenAI的ChatGPT横空出世，背后的逻辑就是力大出奇迹，通过投入海量算力训练，从量变引发质变。
这条路被OpenAI走通了，而之前的一系列迭代，也一再证明，用更庞大的算力去训练更大的模型 = 更高的性能这就造成了路径依赖
特别是美国不缺芯片也不缺钱，所以各大厂纷纷砸巨资采购Nvidia芯片开始以同样方式训练各自的大模型
中国芯片被封锁，算力被美国锁死，不可能走力大砖飞的路子所以不得不在算法上下功夫，结果获得突破

所以才说川建国拜振华为了振兴中华也是拼了

Summerxs

7 个月

mjtalk 发表于 2025-01-28 21:09
我更好奇为什么欧洲国家没有搞出先进的AI，中国这个小startup也就是十个人左右，按说法国人德国人数学都挺好的

同问

wfmlover

7 个月

你开啥玩笑啊 openai是0到1 你咋一下子得出结论说美国没人搞模型了

王

王力宏

7 个月

calculus 发表于 2025-01-28 23:32
你是说Simons吗

Simons 搞的量化交易到底对社会有没有实质性的贡献？

Zuorizailai

7 个月

magnoliaceae 发表于 2025-01-29 00:00
欧洲生活太安逸了，福利太好了，贫富差距小，人没有动力干活，中国美国贫富差距很大，人有动力才会卷出成绩出发明创造，欧洲日本的模式，创新力比不上美国这种残酷的丛林法则he

我觉的不完全是这样，中国人近两百年的屈辱和过去两千年的辉煌，让民族文化里有一种使命感，憋着一股劲。欧洲人未必有这种感觉

婚

婚纱旗袍晚礼服

7 个月

nsf 砍掉，以后就没有物理数学教授了🤣

Namama

7 个月

magnoliaceae 发表于 2025-01-29 00:00
欧洲生活太安逸了，福利太好了，贫富差距小，人没有动力干活，中国美国贫富差距很大，人有动力才会卷出成绩出发明创造，欧洲日本的模式，创新力比不上美国这种残酷的丛林法则he

欧洲一看ChatGPT这种大模型训练那么烧钱，自己又没有互联网大厂能烧的起这个钱，直接就躺平放弃了。到时候直接用美国人的AI就好了，反正欧洲在互联网产业上已经躺平过一次了
而中美打科技战打的那么凶，无论如何AI上面都不会放弃

calculus

7 个月

王力宏发表于 2025-01-29 00:54
Simons 搞的量化交易到底对社会有没有实质性的贡献？

金融交易不像其他行业，明明白白能看出实质性贡献，但我觉得金融交易促进资金的流动性，比普通商贸的流动更快速更广泛。这也算是一种推动社会发展的方式吧。

clam

7 个月

欧洲还是有货的，不过没钱没资本玩着花里胡哨创新。现在大疆也开源了，其软件就是自己界面+苏黎世瑞士联邦理工开源飞控系统PX4+美国开源社区Apache RTOS Nutxx。欧洲心美国心超越这些很困难的。

ca563

7 个月

mjtalk 发表于 2025-01-28 21:09
我更好奇为什么欧洲国家没有搞出先进的AI，中国这个小startup也就是十个人左右，按说法国人德国人数学都挺好的

昨天看了个法国电视台关于DeepSeek的panel discussion，几个AI专家都在反省为什么欧洲人没有做出来。但现在有了这个思路，起码可以期待欧洲也加入中美的AI race。

系统提示：若遇到视频无法播放请点击下方链接
https://www.youtube.com/embed/dEK0IlgcEkY?si=BV8h3Y3mddv7DzVn

聚

7 个月

回复 11楼白河之子的帖子
谢科普，学习了

freewilly

7 个月

小红书看到的，法国自己的LLM,lucie

王

王力宏

7 个月

freewilly 发表于 2025-01-29 07:47
小红书看到的，法国自己的LLM,lucie

这算法符合白女人设

ecaeca

7 个月

mjtalk 发表于 2025-01-28 21:09
我更好奇为什么欧洲国家没有搞出先进的AI，中国这个小startup也就是十个人左右，按说法国人德国人数学都挺好的

欧洲不是没有AI人才，比如OpenAI前CTO Mira Murati就是阿尔巴尼亚人。更有名的Geoffrey Hinton是英国人，Yann LeCun是法国人。
但是西欧一直没有自己的互联网产业，都是依附于美国，所以人才都跑美国来了。相比之下，中国、甚至俄罗斯都有自己的互联网产业。所以西欧AI不行也是正常的。

xiaojiejie

7 个月

mjtalk 发表于 2025-01-28 21:09
我更好奇为什么欧洲国家没有搞出先进的AI，中国这个小startup也就是十个人左右，按说法国人德国人数学都挺好的

从数学角度上讲。AI 非常简单。

momo099

7 个月

Dingmoren2 发表于 2025-01-28 21:13
我作为外行，天然认为高科技AI领域美国领先一大截。DeepSeek 让人意识到已经追平了。以往的经验是中国追平一个领域，基本这个领域就没有什么欧美的事情了。难道AI领域也会步这条老路吗？当然A I有一点例外，软件被追平，如果芯片能拖住中国后腿，中国还是没那么容易独霸该领域。

好几年前，李开复就有写文章说中国AI科研水平非常亮眼。他提出的证据是中国人AI文章被引用的次数。
所以中国的AI水平其实一直都不低，不是什么“一下子追上”的。

Katemeimei

7 个月

欧洲有mistral啊怎么能叫没有AI

slippp

7 个月

magnoliaceae 发表于 2025-01-29 00:00
欧洲生活太安逸了，福利太好了，贫富差距小，人没有动力干活，中国美国贫富差距很大，人有动力才会卷出成绩出发明创造，欧洲日本的模式，创新力比不上美国这种残酷的丛林法则he

怎么都有理啊？生活安逸了按道理不应该更能钻研技术？难道食不果腹才能搞研究？正反两张嘴。

fridec2

7 个月

Katemeimei 发表于 2025-01-29 12:17
欧洲有mistral啊怎么能叫没有AI

愿景是一样的：https://mistral.ai
We’re a small, creative team with high scientific standards. We make compute efficient, useful and powerful AI models with both a strong research focus and a fast-paced entrepreneurial mindset.

skyfi

7 个月

freewilly 发表于 2025-01-29 07:47
小红书看到的，法国自己的LLM,lucie

说个Siri的例子中文问他5的13次方是多少他会回复5的103次方是xxxxxxxx。试了几次明白了他认为十三=10，3。
这种弱智bug 哎

blushpeony

7 个月

magnoliaceae 发表于 2025-01-29 00:00
欧洲生活太安逸了，福利太好了，贫富差距小，人没有动力干活，中国美国贫富差距很大，人有动力才会卷出成绩出发明创造，欧洲日本的模式，创新力比不上美国这种残酷的丛林法则he

他们卷出来的成果也不是自己的一半都变成了税甚至一半以上成功了赚100 自己得40 失败了倒贴100 全是自己的得先换个地方注册公司做生意然后才去卷

浮

浮云散

7 个月

很正常，川普第一次上台之前就面临AI领域的文章70-80%都是华人姓氏（这是华人重视数理教育的结果），所以他召集了几大高科技企业商量对策，最终结果也就是美国高科技企业AI部门离开中国或切割，禁止中国留学生学STEM。但没啥用，现在AI领域的专利中国也是遥遥领先于美国，这轮AI竞争，美国想胜出比较难，其关键是美国高科技企业都重用只长嘴不动手的印度人。

custom

7 个月

这波AI不需要高深的数学，直接堆算力，数学物理的来插一脚，还真难下手

hanmilton

7 个月

回复 1楼 shengshengman 的帖子
Sutskever就是本科数学。 "Sutskever received a Bachelor of Science in mathematics from the University of Toronto in 2005." anthropic 的Dario Stanford University, where he earned his undergraduate degree in physics.[4] He also holds a PhD in physics from Princeton University。

hanmilton

7 个月

回复 2楼 mjtalk 的帖子
llm没多少高深数学

海

海阔

7 个月

hanmilton 发表于 2025-01-29 16:50
回复 2楼 mjtalk 的帖子
llm没多少高深数学

对美国人已经很高深了.对深度学习做出重要贡献的很多是前苏联和东欧人

aiyamayayongle

7 个月

据说现在的人工智能根子上还是五六十年前的大牛捣鼓出来的模型。

墨

墨染云烟

7 个月

freewilly 发表于 2025-01-29 07:47
小红书看到的，法国自己的LLM,lucie

快笑死了

墨

墨染云烟

7 个月

浮云散发表于 2025-01-29 14:25
很正常，川普第一次上台之前就面临AI领域的文章70-80%都是华人姓氏（这是华人重视数理教育的结果），所以他召集了几大高科技企业商量对策，最终结果也就是美国高科技企业AI部门离开中国或切割，禁止中国留学生学STEM。但没啥用，现在AI领域的专利中国也是遥遥领先于美国，这轮AI竞争，美国想胜出比较难，其关键是美国高科技企业都重用只长嘴不动手的印度人。

印度人加油

千

千渔千寻

7 个月

回复 1楼 shengshengman 的帖子
因为太low