愿景是一样的:https://mistral.ai We’re a small, creative team with high scientific standards. We make compute efficient, useful and powerful AI models with both a strong research focus and a fast-paced entrepreneurial mindset.
回复 1楼 shengshengman 的帖子 Sutskever就是本科数学。 "Sutskever received a Bachelor of Science in mathematics from the University of Toronto in 2005." anthropic 的Dario Stanford University, where he earned his undergraduate degree in physics.[4] He also holds a PhD in physics from Princeton University。
所以这玩意也是神奇了。要说是抖音、百度、阿里、腾讯搞出来的也靠谱点,这玩意真神了奇了。
谁说的,阿里、百度、腾讯哪个干掉美国了?
A I是工具影响各行各业,工具便宜好用,基本就不会用其他家的了。
说是上百人,founder好像有10来个的样子。
就是选一些高质量数据?
----
蒸馏(Distillation)在AI和机器学习领域,通常指的是知识蒸馏(Knowledge Distillation),它是一种模型压缩技术,用于让一个小模型(称为学生模型)学习一个大模型(称为教师模型)的知识,从而在保持高精度的情况下减少计算成本和存储需求。
知识蒸馏的基本原理 教师模型(Teacher Model) 一个训练好的大模型,通常是一个性能很强但计算开销大的深度神经网络。 学生模型(Student Model) 一个较小的模型,目标是学习教师模型的行为,使其在计算能力受限的情况下仍能取得不错的效果。 软标签(Soft Labels) 在普通训练中,模型输出的类别通常是硬标签(如0或1),但在蒸馏过程中,教师模型会输出一个软概率分布(Softmax 输出的数值),学生模型学习这些软标签,比学习单一的硬标签信息量更丰富。 蒸馏损失(Distillation Loss) 通过计算学生模型和教师模型之间的输出差异(通常使用交叉熵或均方误差),来优化学生模型,使其逐渐接近教师模型的性能。 知识蒸馏的应用 减少模型大小,提高运行效率(如在移动端或边缘设备上运行AI) 提高小模型的泛化能力(学生模型能更好地学习教师模型的知识) 多模型融合(多个教师模型的知识可以合并到一个学生模型中) 举个例子 假设你有一个大型BERT模型(如GPT-4)用于文本分类,但它计算量太大。可以用蒸馏的方法训练一个小型的BERT(如TinyBERT),让它学习GPT-4的知识,从而在计算资源受限的情况下依然保持较高的准确率。 这个概念类似于老师教学生,学生不用完全复制老师的所有知识,但能掌握关键点,以较小的认知负担达到接近老师的水平。
DeepMind是欧洲公司啊!
因为AI没有高深理论
传统的高深理论要么是弦论,模,流型等抽象数学理论,AI不需要
数学物理大牛也不擅长这个
AI就是工程数学,高数+概率统计+线性代数
连微分方程好像都不怎么用
应用数学家也许可以
R1 文章后面的署名有3位数。不过话说回来,core contribuyors确实就10几号人。兵贵精不贵多。人员一多,协调人员的代价使得边际效益迅速递减。
因为OpenAI的ChatGPT横空出世,背后的逻辑就是力大出奇迹,通过投入海量算力训练,从量变引发质变。
这条路被OpenAI走通了,而之前的一系列迭代,也一再证明,用更庞大的算力去训练更大的模型 = 更高的性能 这就造成了路径依赖
特别是美国不缺芯片也不缺钱, 所以各大厂纷纷砸巨资采购Nvidia芯片开始以同样方式训练各自的大模型
中国芯片被封锁,算力被美国锁死,不可能走力大砖飞的路子 所以不得不在算法上下功夫,结果获得突破
因为有钱的大厂,都跟随美国人的路子,去搞力大砖飞的传统大模型了。。
你是说Simons吗
数学大牛去金融赚钱不丢人
DS也是对冲基金在股市上割韭菜赚了钱以后搞的副业,
没那么简单,就好比,难道别人不懂蒸馏。
那么多数据,为什么能如此快的训练出来,也就是说,他们那一波人甚至改了硬件,或者直接使用GPU的硬件语言而且绕过了,英伟达显卡的应用层。 这个deepseek厉害的,并不是他现在的知识会怎么样,因为经过训练的模型,他自己可以学习,至于学的什么已经不重要的。
我们就用吨做单位把, openai,训练1万吨的数据,需要1年才能完全训练完。 但是deepseek只用了3个月。这就是差距。这个就是deepseek能做到便宜的原因,因为他训练时间更少,节省的能源更多,而且还开源, 更重要的是, openai不开源,openai用的数据也不告诉你。
欧洲生活太安逸了,福利太好了,贫富差距小,人没有动力干活,中国美国贫富差距很大,人有动力才会卷出成绩出发明创造,欧洲日本的模式,创新力比不上美国这种残酷的丛林法则he
都去华尔街骗钱去了
所以才说川建国拜振华为了振兴中华也是拼了
同问
Simons 搞的量化交易到底对社会有没有实质性的贡献?
我觉的不完全是这样,中国人近两百年的屈辱和过去两千年的辉煌,让民族文化里有一种使命感,憋着一股劲。欧洲人未必有这种感觉
欧洲一看ChatGPT这种大模型训练那么烧钱,自己又没有互联网大厂能烧的起这个钱,直接就躺平放弃了。 到时候直接用美国人的AI就好了,反正欧洲在互联网产业上已经躺平过一次了
而中美打科技战打的那么凶,无论如何AI上面都不会放弃
金融交易不像其他行业,明明白白能看出实质性贡献,但我觉得金融交易促进资金的流动性,比普通商贸的流动更快速更广泛。这也算是一种推动社会发展的方式吧。
昨天看了个法国电视台关于DeepSeek的panel discussion,几个AI专家都在反省为什么欧洲人没有做出来。但现在有了这个思路,起码可以期待欧洲也加入中美的AI race。
系统提示:若遇到视频无法播放请点击下方链接
https://www.youtube.com/embed/dEK0IlgcEkY?si=BV8h3Y3mddv7DzVn
谢科普,学习了
这算法符合白女人设
欧洲不是没有AI人才,比如OpenAI前CTO Mira Murati就是阿尔巴尼亚人。更有名的Geoffrey Hinton是英国人,Yann LeCun是法国人。
但是西欧一直没有自己的互联网产业,都是依附于美国,所以人才都跑美国来了。相比之下,中国、甚至俄罗斯都有自己的互联网产业。所以西欧AI不行也是正常的。
从数学角度上讲。AI 非常简单。
好几年前,李开复就有写文章说中国AI科研水平非常亮眼。他提出的证据是中国人AI文章被引用的次数。
所以中国的AI水平其实一直都不低,不是什么“一下子追上”的。
怎么都有理啊?生活安逸了按道理不应该更能钻研技术?难道食不果腹才能搞研究?正反两张嘴。
愿景是一样的:https://mistral.ai
We’re a small, creative team with high scientific standards. We make compute efficient, useful and powerful AI models with both a strong research focus and a fast-paced entrepreneurial mindset.
说个Siri的例子 中文问他5的13次方是多少 他会回复5的103次方是xxxxxxxx。 试了几次明白了他认为十三=10,3。
这种弱智bug 哎
他们卷出来的成果也不是自己的 一半都变成了税 甚至一半以上 成功了赚100 自己得40 失败了倒贴100 全是自己的 得先换个地方注册公司做生意 然后才去卷
Sutskever就是本科数学。 "Sutskever received a Bachelor of Science in mathematics from the University of Toronto in 2005." anthropic 的Dario Stanford University, where he earned his undergraduate degree in physics.[4] He also holds a PhD in physics from Princeton University。
llm没多少高深数学
对美国人已经很高深了.对深度学习做出重要贡献的很多是前苏联和东欧人