It collects all dataset from everywhere. GPT generated dataset is only a small part - no different from any other LLM vendors. Huge dataset from Chinese media too. And it’s all open sourced, which OpenAI doesn’t even dare to try.
———————-
tudoutudou99 发表评论于 2025-01-29 04:47:51 There's substantial evidence that what DeepSeek did here is they distilled the knowledge out of OpenAI's models.
deepseek 本身就是建立在 open source LLM 之上的. openAI, meta... 都是贡献者。deepseek used distillation to learn from other models, and used other models in reinforced learning. 已经有人试了问deepseek 自己是谁,who are you, 它的回答是我是百分百的Microsoft. 可见copilot/chatgpt 影响之深
回复网友评论 令胡冲 -----------
It collects all dataset from everywhere. GPT generated dataset is only a small part - no different f...
-----------------
Distall在如今GenAI中是一种特定的概念和方法,有其基本基本softmax概率分布值的一些衍生算法。
DeepSeek没有Distall ChatGPT。句号。它也distall不了,OpenAI这四年来任何模型和数据都没有来源。DeepSeek只能蒸馏自己的模型,去微调其它小模型。
关于Distill概念方式,可以去简单看一看MIT相关网课。
——————-
prenwxc 发表评论于 2025-01-29 05:09:28 deepseek 本身就是建立在 open source LLM 之上的. openAI, meta... 都是贡献者。deepseek used distillation to learn from other models, and used other models in reinforced learning. 已经有人试了问deepseek 自己是谁,who are you, 它的回答是我是百分百的Microsoft. 可见copilot/chatgpt 影响之深
是distill 不是distall. "OpenAI found evidence of “distillation,” which it believes came from DeepSeek. Distillation is a process where AI firms use an already trained large AI model to train smaller models. The “student” models will match similar results to the “teacher” AI in specific tasks."_------------------------ 回复网友评论 令胡冲 -----------DeepSeek没有Distall ChatGPT。句号。它也distall不了,OpenAI这四年来任何模型和数据都没有来源。DeepSeek只能蒸馏自己的模型,去微调其它小模型。 -----------------
我老敲中英文错别字。文学城原始,改不了错字。这话是媒体胡扯的。不懂GenAI常识的人瞎忽悠。DeepSeek蒸馏不了GPT4。但所有大模型都用它生成一些测试或数据。DeepSeek完全是业界标准通用研发做法。
如果真能蒸馏,其它LLM早就做成了。
—————-
prenwxc 发表评论于 2025-01-29 06:00:00 是distill 不是distall. "OpenAI found evidence of “distillation,” which it believes came from DeepSeek. Distillation is a process where AI firms use an already trained large AI model to train smaller models. The “student” models will match similar results to the “teacher” AI in specific tasks."
回复:‘令胡冲 发表评论于 2025-01-29 06:13:17
我老敲中英文错别字。文学城原始,改不了错字。这话是媒体胡扯的。不懂GenAI常识的人瞎忽悠。DeepSeek蒸馏不了GPT4。但所有大模型都用它生成一些测试或数据。DeepSeek完全是业界标准通用研发做法。
如果真能蒸馏,其它LLM早就做成了。
—————-
prenwxc 发表评论于 2025-01-29 06:00:00 是distill 不是distall. "OpenAI found evidence of “distillation,” which it believes came from DeepSeek. Distillation is a process where AI firms use an already trained large AI model to train smaller models. The “student” models will match similar results to the “teacher” AI in specific tasks."’
**================**
放屁,用其它模型的数据训练是违反常规的。
请不要卖弄自己的无知。
中国最新推出的AI聊天机器人DeepSeek(深度求索)震撼了科技界,并迅速取代ChatGPT成为美国下载量最高的免费应用,让创始人、亿万富翁梁文锋一夜成名。
这款在上周推出的低成本聊天机器人,据报导其开发预算远低于竞争对手,让华尔街震惊,竞争对手也纷纷加紧追赶。
美国总统唐纳德·特朗普(Donald Trump,川普)也立即发表看法,称这是对美国企业的“警钟”。
“更像极客而非老板”
梁文锋称他的核心团队“没有海归人士,都是本地人才……我们必须自己培养顶尖人才。”
DeepSeek由梁文峰于2023年12月创立,并于第二年发布了首个AI大型语言模型。关于这位40岁的创业家,外界知道的并不多。他出生于中国南方城市广东湛江,毕业于浙江大学,专业为电子信息工程和计算机科学。
根据科技媒体36氪的一篇文章,与他熟悉的人表示他“更像是一个极客(Geek),而不是一个老板”。
梁先生很少公开露面和受访,现在他却因为DeepSeek成为国际焦点。
他是唯一一位被选中参加与国家第二号领导人李强的公开企业家会议的AI界领袖。商界人士被中南海告知要“集中精力突破关键核心技术”。
与许多来自矽谷的美国AI企业家不同,梁先生还有金融背景。他是名为“幻方量化”(High-Flyer)的对冲基金的首席执行官,该基金利用AI分析金融数据以做出投资决策,这被称为量化交易。
2019 年,“幻方量化”成为中国首个募资超过1000 亿元人民币的量化对冲基金。
在幻方量化,梁文峰通过使用AI和以及识别可能影响股价的算法模式赚到了钱。他的团队熟练使用AI晶片设计师以及近期华尔街宠儿辉达生产的H800晶片来进行股票交易。2023年,他推出DeepSeek,宣布了开发人类水平人工智能的意图。
据说,梁文锋亲自参与DeepSeek的研究,他利用对冲基金交易的收益来支付顶级AI人才的高薪。该公司拥有来自北京大学、清华大学和北京航空航天大学等中国顶尖学校的博士,而不是来自美国机构的专家。
DeepSeek发行人梁文峰(右)出生于中国南方广东湛江,毕业于浙江大学,专业为电子信息工程和计算机科学。
与TikTok的母公司字节跳动类似,DeepSeek以向AI工程师提供最高的薪酬而闻名,员工在杭州和北京的办公室工作。
去年接受中国媒体的访问时,梁文锋称他的核心团队“没有海归人士,都是本地人才……我们必须自己培养顶尖人才。”
梁文锋还强调,中国的AI产业“不能永远做跟随者。”
他补充称:“我们常说中国和美国的AI之间有一到两年的差距,但实际的差距在于创新和模仿之间。如果这种情况不改变,中国将永远是跟随者。”
当被问及为什么DeepSeek的模型让这么多矽谷人士感到惊讶时,梁文锋回答说:“他们的惊讶源于看到一家中国公司作为创新者加入他们的游戏,而不仅仅是跟随者——这是大多数中国公司所习惯的。”
DeepSeek的竞争力在哪里
DeepSeek表示,其模型R1是基于现有技术以及开源软体开发的,这些软体可以免费供任何人使用和分享。然而,《连线》(WIRED)杂志报导称,梁的对冲基金公司“幻方量化”囤积了大量的AI基础晶片,即图形处理单元(GPU)。根据《麻省理工科技评论》的估计,他获得的晶片数量在10,000到50,000颗之间。
这些晶片对于构建能执行各种人类任务的强大AI模型至关重要,包括回答基本问题和解决复杂的数学问题。
2022年9月,美国宣布禁止向中国出售这些高效能晶片,梁文锋在接受中国媒体的访问时指出,这是“主要挑战”。
西方的主要AI模型估计使用了16,000 颗专用晶片。但DeepSeek表示,他们的AI模型R1 仅使用了2,000颗这样的晶片,以及数千颗低级别晶片,这使得其产品成本更低。
根据开发者的说法,这款聊天机器人的建造成本仅为560万美元,而ChatGPT的制造商 OpenAI去年花费了50亿美元。
包括美国科技界亿万富翁埃隆·马斯克(Elon Musk)在内的一些人对这一说法表示质疑,认为鉴于受到限制,该公司无法披露实际使用了多少先进晶片。
但专家表示,华盛顿的禁令既给中国的AI行业带来了挑战,也带来了机遇。
雪梨(悉尼)科技大学副教授张越(Marina Zhang) 向BBC说:“这迫使像DeepSeek这样的中国企业进行创新,让他们在资源有限的情况下做更多的事情。”
她又补充道:“尽管这些限制带来挑战,但也激发了创造力和韧性,与中国实现技术独立的更广泛政策目标相一致。”
作为世界第二大经济体,中国在大型科技领域进行了大量投资——从为电动车和太阳能电池板提供动力的电池到AI技术。
将中国打造成科技超级大国长期以来一直是习近平主席的雄心,华盛顿的限制是北京需要迎接的挑战。
评价不一
DeepSeek的推出引发了美国主要科技股的抛售。美国市场在本周一收盘时,辉达股价已经暴跌17%,市值损失达 6000 亿美元,根据彭博社报导,这是美国股市历史上最大的跌幅。
风险投资家安德瑞森( Marc Andreessen) 在社交媒体X上表示,将DeepSeek-R1的出现视为 “AI的斯普特尼克时刻”,这指的是苏联率先发射的人造卫星。
但这款中国应用也引发了许多人的担忧。
资深分析师孟斯特( Gene Munster)对BBC表示:“我仍然认为真相隐藏在表面之下。”他暗示的是DeepSeek披露的财务状况。他还质疑这家初创公司是否获得了补贴,以及其报告的数据是否准确。
“这款聊天机器人好得让人很难相信。”
澳洲科学部长赫斯特( Ed Husic)则指出该产品的安全隐患。他向澳洲广播公司表示:“有很多问题需要随着时间的推移得到解答,关于质量、消费者偏好、数据和隐私管理。我会非常谨慎。这些问题需要仔细权衡。”
上周,OpenAI的奥特曼(Sam Altman)和甲骨文的艾莉森( Larry Ellison)与特朗普一起宣布了联合计画“星际之门”( Stargate),承诺为美国的AI基础设施提供高达 5000亿美元的私人投资,并且在德州及其它地区建立数据中心,创造 10万个新工作。
随着DeepSeek成为 AI 竞赛中的另一强劲参与者,一些专家认为,这家公司的突然出现可能会引发对美国AI主导权及其计划投资规模的质疑。