简单说说Deepseek
Deepseek 采用混合专家(Mixture-of-Experts,MoE)架构, 创新之处包括细粒度专家细分和共享专家隔离,提升了 MoE 架构的效率和性能。(这是国内的说法)
但是训练它需要高质量的数据。它提出之初就有人怀疑利用chatgpt的输出作为训练数据。所以有人对Deepseek提问你是哪个模型,deepseek回答我是chatgpt.
openAI是真正的从零开始,利用原始数据和追求通用智能。Deepseek所谓训练量只有chatGPT的1/30是夸大了,因为没有计入获取高质量数据的成本。现在也有质疑deepseek故意缩小了它拥有的GPU卡数量和训练计算量。
另外它的通用智能上限也不如从原始数据中生成的大模型高。
再就是开源,拿训练好的用,当然可以。但要验证它的训练量,要花大量金钱,它现在不怕训练计算量的验证,就是因为有这个高花费的门槛。
Deepseek 没有知识堡垒,护城河。肯定会涌现出许多竞争对手。这会进一步加深人工智能被广泛应用。
是国家信用的某种背书。
DeepSeek-V3/README.md at main · deepseek-ai/DeepSeek-V3 · GitHub
简单说说Deepseek
Deepseek 采用混合专家(Mixture-of-Experts,MoE)架构, 创新之处包括细粒度专家细分和共享专家隔离,提升了 MoE 架构的效率和性能。(这是国内的说法)
但是训练它需要高质量的数据。它提出之初就有人怀疑利用chatgpt的输出作为训练数据。所以有人对Deepseek提问你是哪个模型,deepseek回答我是chatgpt.
openAI是真正的从零开始,利用原始数据和追求通用智能。Deepseek所谓训练量只有chatGPT的1/30是夸大了,因为没有计入获取高质量数据的成本。现在也有质疑deepseek故意缩小了它拥有的GPU卡数量和训练计算量。
另外它的通用智能上限也不如从原始数据中生成的大模型高。
再就是开源,拿训练好的用,当然可以。但要验证它的训练量,要花大量金钱,它现在不怕训练计算量的验证,就是因为有这个高花费的门槛。
Deepseek实际是取巧加吹牛,走不远的。上面内容昨天在紫檀发过,被删。今天什么遭大规模攻击宕机的说法就来了,只开放大陆注册了。 开发它的幻方公司用的是国内2流人才,做的量化交易也亏空不少。现在有消息说幻方已经做空NVDA,要捞一把了.Deepseek 没有知识堡垒,护城河。肯定会涌现出许多竞争对手。这会进一步加深人工智能被广泛应用。
是国家信用的某种背书。
DeepSeek-V3/README.md at main · deepseek-ai/DeepSeek-V3 · GitHub