中国AI黑马撼硅谷!DeepSeek创始人梁文峰经历曝

今日头条
Toutiao
最新回复:2025年1月28日 7点25分 PT
  返回列表
54631 阅读
33 评论
自由时报



中国AI新创公司DeepSeek近期接连发表两款大模型,震撼硅谷科技巨头,创始人梁文峰(右)背景也随之曝光。(微博)

中国AI新创公司DeepSeek(深度求索)近期接连发表两款大模型,还衝上了美国APP Store免费APP下载排行榜的第一名,超越ChatGPT,震撼硅谷科技巨头,更被誉为来自东方的神祕力量,然而DeepSeek创始人梁文峰的背景也随之曝光。

综合外媒整理了DeepSeek创始人梁文峰的经历,他1985年出生于广东省湛江市。国中时期就提前完成高中数学课程,学习大学数学。

2002年,梁文峰以湛江的吴川市第一中学“高考状元”成绩考入浙江大学电子资讯工程科,浙大在中国的大学中应排三、四名;大学毕业后,他继续攻读资讯与通讯工程研究所。

在校期间,梁文峰对金融市场产生了浓厚的兴趣,2008年全球金融危机之际,他带领团队探索机器学习技术在全自动量化交易中的应用潜力。

梁文峰决定量化投资,但这个决定并不容易,毕竟当时量化还是个新事物,很多人不相信量化可以赚钱。梁文峰苦熬了2年,2010年,沪深300股指期货推出,量化投资迎来了春天,梁文峰和他的团队大赚一笔,自营资金超过5亿元。

2023年,梁文锋正式成立DeepSeek,一家专注于人工智能大模型技术研发的创新公司。成立1年后,DeepSeek就拿出让业界关注的产品,去年5月,公司发布DeepSeek-V2,以其创新的模型架构和史无前例的性价比(CP值)引发关注。

d
duty
1 楼
这个要赞。
城头散仙
2 楼
活該美帝把高科技產業拱手讓給老印度混混們。。。
相信事实
3 楼
这个新模型砸得今天美国娜指狂跌700点!牛逼。 因为新算法比美国的AI模型效率高一个数量级,导致美国严重关切中国的发展速度超过美国。
新燕山夜话
4 楼
所以,中国人一定要对自己有自信。华为的任正非、阿里的马云、腾讯的马化腾、TicTok的张一鸣、Deepseek的梁文峰都是完全没有任何国外教育背景的“土八路”。他们一点也不比硅谷那些靠华尔街资本扶植起来的美国人差。再说一遍,中国人你要有民族自信,特别是在这个中华重新腾飞的时代。
狄更丝
5 楼
让子弹飞一会
Y
Yummy2000
6 楼
这些人,很多都是白手套。 任正非,马云是最典型的白手套。 马云靠后台,拿到了金融牌照,建立金融产业帝国。 ========================================================= 新燕山夜话 发表评论于 2025-01-27 13:03:47所以,中国人一定要对自己有自信。华为的任正非、阿里的马云、腾讯的马化腾、TicTok的张一鸣、Deepseek的梁文峰都是完全没有任何国外教育背景的“土八路”。他们一点也不比硅谷那些靠华尔街资本扶植起来的美国人差。再说一遍,中国人你要有民族自信,特别是在这个中华重新腾飞的时代。
罗马军团
7 楼
新燕山夜话 发表评论于 2025-01-27 13:03:4 7所以,中国人一定要对自己有自信。华为的任正非、阿里的马云、腾讯的马化腾、TicTok的张一鸣、Deepseek的梁文峰都是完全没有任何国外教育背景的“土八路”。他们一点也不比硅谷那些靠华尔街资本扶植起来的美国人差。再说一遍,中国人你要有民族自信,特别是在这个中华重新腾飞的时代。 = 赤裸裸的种族主义,中国人你要有民族自信,你说哪个民族不该有民族自信?
罗马军团
8 楼
猪圈国的问题是民族人种能力的问题?是猪圈的问题,是把人当猪的问题。
新燕山夜话
9 楼
罗马军团 发表评论于 2025-01-27 13:19:0 赤裸裸的种族主义,中国人你要有民族自信,你说哪个民族不该有民族自信? --------------------------------------------------------------------------- 何来种族主义一说?我希望所有的民族,都应当有自己的自信心。过去四十年里,中国在公知殖人们的宣传下,十分明显缺乏民族自信。很多人竟认为中国人不适合搞高科技,只能做低端制造业。现在这种错误的迷信被彻底打破了。
C
Capitaltwo
10 楼
这都是制度优势的结果,而梁文峰同期的同学出国后都没有混出人样来。
土拨鼠拨土
11 楼
罗马军团 发表评论于 2025-01-27 13:19:09新燕山夜话 发表评论于 2025-01-27 13:03:4 7所以,中国人一定要对自己有自信。华为的任正非、阿里的马云、腾讯的马化腾、TicTok的张一鸣、Deepseek的梁文峰都是完全没有任何国外教育背景的“土八路”。他们一点也不比硅谷那些靠华尔街资本扶植起来的美国人差。再说一遍,中国人你要有民族自信,特别是在这个中华重新腾飞的时代。 = 赤裸裸的种族主义,中国人你要有民族自信,你说哪个民族不该有民族自信? ------- 该有和有没有是一回事儿?
长剑倚天
12 楼
完全同意楼下capitaltwo网友的评论! 中国数理化人才济济,不论出国的还是在国内的,都是顶尖高手。 那么,为什么出国的,只能成为打工人? 而留在国内的,反而出类拔萃? 制度,环境,文化的不同,才是深刻原因!
新燕山夜话
13 楼
长剑倚天 发表评论于 2025-01-27 14:11:30完全同意楼下capitaltwo网友的评论! 中国数理化人才济济,不论出国的还是在国内的,都是顶尖高手。 那么,为什么出国的,只能成为打工人? 而留在国内的,反而出类拔萃? 制度,环境,文化的不同,才是深刻原因! ----------------------------------------------------------------------- 除了上面的原因外,还有很多美国公司的领导位置,都被印三哥占着。中国人和三哥是天生的死对头,你就是有才能,他也不会让你发挥。为了防着你超过他,他们宁愿让企业成为下一个波音。
T
Tan7th
14 楼
龙芯V2?
百家争鸣2012
15 楼
新燕山夜话 发表评论于 2025-01-27 14:18:46长剑倚天 发表评论于 2025-01-27 14:11:30完全同意楼下capitaltwo网友的评论! 中国数理化人才济济,不论出国的还是在国内的,都是顶尖高手。 那么,为什么出国的,只能成为打工人? 而留在国内的,反而出类拔萃? 制度,环境,文化的不同,才是深刻原因! ----------------------------------------------------------------------- 除了上面的原因外,还有很多美国公司的领导位置,都被印三哥占着。中国人和三哥是天生的死对头,你就是有才能,他也不会让你发挥。为了防着你超过他,他们宁愿让企业成为下一个波音。 ------------------------------------- 美国最喜欢族裔阶层固化。不是因为三哥,而是因为那些犹太人根本就不会让华人上位。
Y
Yummy2000
16 楼
成立2023年7月的公司,浙江人, 金融圈高手。。。。。。。 ========================================== DeepSeek的开发者为杭州深度求索人工智能基础技术研究有限公司(简称“深度求索”),该公司成立于2023年7月份,由宁波程恩企业管理咨询合伙企业(有限合伙)和梁文锋共同持股。 据了解,深度求索背后的操盘手梁文锋是金融圈成名已久的高手。
Y
Yummy2000
17 楼
这把镰刀又挥舞起来了,又要在A股市场兴风作浪,韭菜们又要被血淋淋收割了。
Y
Yummy2000
18 楼
DeepSeek 是由 杭州深度求索人工智能基础技术研究有限公司 开发的,股东是宁波程恩企业管理咨询合伙企业 99%,梁文锋 1%。 宁波程恩企业管理咨询合伙企业的股东是:梁文锋和宁波程信柔兆企业管理咨询合伙企业 差不多各50%。 宁波程信柔兆企业管理咨询合伙企业的股东依然是梁文锋持股68.14%,其他股东是李欢、郑达、陈哲等。 所以 DeepSeek 几乎就是梁文锋一个人的公司,持股在85%左右,它甚至跟幻方量化都没直接关系,只不过是同一个控制人而已
S
S7Exam
19 楼
哈哈。台蛙随便吠,三点不容质疑 ( 如果台蛙还有一点智商的话) 1. 经济战的珍珠港: 纳指600点 3% , 被无名氏人一招击垮。 2。 Stargate 成马仕顿防线。 3. Deepseek 是open source, 他们根本没想着吃肉,甚至没想着喝汤,他们只是掀翻桌子.
S
S7Exam
20 楼
1. 从V3发布, 观点是怀疑, 认为是chatGPT套牌 2. 不到一个月, R1 发布, 业界错愕之余开始酸 text base only 3. 今天早晨 Janus Pro 7B 发布, 据R1 才几天 台蛙都别吠,自己看看GitHub, 下个OLLAMA试试,然后找个犄角安静的哭吧
Y
Yummy2000
21 楼
应该是华尔街自己拿deepseek来砸盘。 deepseek 在12月26日就发布了这个东西,如果真牛的东西,早就上热搜了。 =========================================================== 哈哈。台蛙随便吠,三点不容质疑 ( 如果台蛙还有一点智商的话) 1. 经济战的珍珠港: 纳指600点 3% , 被无名氏人一招击垮。 2。 Stargate 成马仕顿防线。 3. Deepseek 是open source, 他们根本没想着吃肉,甚至没想着喝汤,他们只是掀翻桌子.
青山留夕阳
22 楼
今天高科技股确实经历了前所未有的因稀有孤立事件的崩盘。显然这家不起眼的公司折服了华尔街。 我好奇的:中国的科技历来都属于 1 到 100 的优化,鲜有 0 到1 的初创 - 那这次究竟算那个档次?
S
S7Exam
23 楼
V3除了理工男,少有人关心新东西, R1也不能打动花街,AIME高分也不会触动人们神经!但是当IOS APP下载 排行榜 NO1,这个是撼动main street的, wallstreet 就不能无视了 Yummy2000 发表评论于 2025-01-27 15:35:45应该是华尔街自己拿deepseek来砸盘。 deepseek 在12月26日就发布了这个东西,如果真牛的东西,早就上热搜了。
c
chinesegod3
24 楼
青山留夕阳 发表评论于 2025-01-27 15:38:56今天高科技股确实经历了前所未有的因稀有孤立事件的崩盘。显然这家不起眼的公司折服了华尔街。 我好奇的:中国的科技历来都属于 1 到 100 的优化,鲜有 0 到1 的初创 - 那这次究竟算那个档次? ------------------------------------------------------------------------- 显然1到100啊,0到1是今年诺贝尔奖的几位,还有google的transformer可能可以算一个。
D
Daoao
25 楼
DeepSeek是开源,它的论文在网上有,我看过,我觉得它这个应该算得上是0到1.
c
chinesegod3
26 楼
Daoao 发表评论于 2025-01-27 15:59:11DeepSeek是开源,它的论文在网上有,我看过,我觉得它这个应该算得上是0到1. --------------------------------------------- 每个开源的模型都有论文,这个可以说开源的模型里面最接近Chat GPT的,但训练成本比Chat GPT低很多。用到的技术原则上还是已有的组合一下。所以不算0到1。
5
5mslj
27 楼
长剑倚天 发表评论于 2025-01-27 14:11:30 完全同意楼下capitaltwo网友的评论! 中国数理化人才济济,不论出国的还是在国内的,都是顶尖高手。 那么,为什么出国的,只能成为打工人? 而留在国内的,反而出类拔萃? 制度,环境,文化的不同,才是深刻原因! ——————————— 目前各领域,做出重大成绩的,似乎和你说的完全相反啊。 按照你的意思,不用美国限制中国留学生了,中共自己就应该关上留学的大门,你有机会向你敬爱的习主席建议一下,看看他老人家什么反应。
旁观者XWY
28 楼
deepseek 的大模型训练是建立在OpenGPT之上,行话叫distillation,是典型的1到2. 它用软件大幅降低训练成本,对英伟达台积电博通等硬件公司打击最大。对冲基金籍口做空。
S
S7Exam
29 楼
openGPT是啥? 是 chatGPT 二哥吗, Google transformer又是啥 ? 旁观者XWY 发表评论于 2025-01-27 17:38:00deepseek 的大模型训练是建立在OpenGPT之上,行话叫distillation,是典型的1到2. 它用软件大幅降低训练成本,对英伟达台积电博通等硬件公司打击最大。对冲基金籍口做空。
D
Daoao
30 楼
在论文里,DeepSeek的训练和其他的AI完全不同,它没有预训练和指导,直接给问题给AI,然后用一个简单的奖励机制来优化,我觉得是0到1,完全自己的创新。
m
missC
31 楼
罗马军团 发表评论于 2025-01-27 13:21:27猪圈国的问题是民族人种能力的问题?是猪圈的问题,是把人当猪的问题。 +100
a
abcdaren
32 楼
聪明的训练方法,硬件没有太多突破。。。 这人的脑子不可小视。 老美的搞法太烧钱:正是时候检讨自己、迎头赶上。。。使新科技更接地气!!!
a
abcdaren
33 楼
转发: 一,它是迄今最好的中文大模型平台,从理解能力和答案输出能力来看,远超此前百度的文心一言和抖音豆包。说掀翻ChatGPT尚显夸张,但确实掀翻了国内的BAT和字节跳动,比起美国科技巨头,更应该陷入恐慌的是国内互联网大厂。 二、根据这位中国博士朋友的说法,deepseek基于开源的Transformer模型,而Transformer模型由谷歌开发。所以国内媒体宣传deepseek“纯自研”“纯国产”是不准确的。而且deepseek的算力基础仍然来源于英伟达显卡。 中国内行朋友还透露deepseek团队非常有钱,提前囤了1万多张英伟达高端显卡,而华科大和中科大的实验室搞显卡如今都不太容易。从网上公开信息看,DeepSeek拥有1万张老的A100卡和3000张禁令之前的H800卡‌。按照H800显卡20万一片的价格,deepseek购买这3000张显卡就花费了超6亿元。成本不像说的那么低。。。 也就是说,deepseek的软硬件基础仍然是基于美国产品之上。 三、目前使用下来最大的缺点是比老美慢,我输出一句“你好”,它的“深度思考”时间就花费了8秒,基本一个问题想得到答案,需要等待几十秒甚至几分钟时间,这和ChatGPT的“秒回”能力形成了鲜明对比。但deepseek的差异之处在于,它把原本置于后台的机器人“深度思考”程序,转为前台公开化显示,你可以理解为能部分掩盖输出答案的缓慢,也能理解为展现其“深度思考”功能的精妙和“人性化”。 四、此前ChatGPT被诟病简中能力低下,一个原因是简中文体用户较少,导致抓取样本数据少,但deepseek拥有的先天优势是海量的中文数据抓取基础,也能够学习模拟不同的中文语气和风格,比如可以生成“贴吧老哥体”“小红书体”,你也可以通过输入指令“言辞激烈或温和”,来改变其文风。deepseek的写作能力,已经大大降低了“AI味”。毫不夸张的说,deepseek未来可以取代大部分的公文写作甚至社论写作,这对评论员来说都是不小的挑战。 五、和所有的国产大模型一样,deepseek绕不开的是审核,特别是应对政治类历史类问题。但令人诧异的是,deepseek的尺度远超BAT和字节大模型,一些敏感信息也被抓取,比如询问其对当前仿制药问题的看法,它可以生出一篇言辞尖锐的批评性文章。