我是一个彻彻底底的外行,看了不少专家们在这里发表的意见,仍然是一头雾水。
不知道这样的理解对不对:DeepSeek的内容是基于OpenAI的数据。OpenAI花费了大量的资源将海量的数据整理后,然后开源给任何人使用。DeepSeek就是在这个基础上优化算法的。
就好比淘金,你可能要花费大力气从一吨金矿里淘出10克粗砂(第一步),然后从10克粗砂里再精炼出1克黄金(第二步)。第一步花费的资源也许就占了全部资源的99%以上。
这样的理解可能错得离谱,请不要见笑。
我也不懂,但不是在chatgpt数据基础上
个人看法,大概可以这么简单说一下Deepseek的技术特征:
算力算法。 Deepseek 突破了美国制裁以及幻化量方自身投入的算力瓶颈,突破性的引入了“混合精度”算法,能用8位精度解决的问题,打包后放入64位GPU运算单元执行,另外还有对矩阵计算进行优化,类似于通过对稀疏矩阵的某些,局部降低矩阵计算的维度。依靠以上两门绝技,大大提高了运算效率。
训练学习方法。deepseek的团队基因就是小镇做题家。预训练材料精简,类似于小学到高中,没用的闲书可以不看,集中学习数学和编程,所谓学好数理化,走遍天下都不怕,逻辑推理分析能力训练好了,少年班或数理强化班的学生大学毕业走上社会,搞金融法律医学等等只需要再学上几本专业书摸爬滚打一番,都可以很快上手成才。相比之下Openai的贵族们从小博览群书,三字经唐诗宋词九章算术背了两千年,积累不少却难以飞跃,直到近代才打通经脉有所飞跃。从能力上来说,综合网上的一些评估,deepsek的强项就是数学和编程,其他方面可能不够全面,个人体会其答案也有理工男的特征。
还有在增强学习(RL)方面,Deepseek 不大重视每个步骤的准确率,解题过程中,凭直觉或记忆给出的推导过程可以省略,答案对了,你管我做题推导过程中有没有跳步骤呢。这样做题就快,万一做着做着发现有问题,我再回头检视我跳过的步骤,也许有错就纠正,这个就是Deepseek的所谓aha moment, 这样做题推理就比一步步死推要快,按照这个思路需练好的小模型在手机上都能开跑。
蒸馏 distill能力。 Deepseek 这个能力也很有意思,奥数培训老师可以把做题方法教给一些不同背景的集训班学生,让学生做题能力突飞猛进,甚至做到青出于蓝而胜于蓝,因为这个学生可能读过老师没读过的奇书,或者没有老师老脑筋的负担。
总而言之, 我们应该肯定Deepseek 在AI技术上的突破,打个比方来说,依靠deepserk的训练方法,应该可以用比较低的投入培养出一批有用的技术人才,但是要出现脑洞大开牛顿爱因斯坦,可能还要依靠Openai潜在的发散性思维。
硬件惨的多。
美国军工产品就是实在太贵,五角大楼干脆直接举起双手说,无法与大陆军备竞赛了。
是那帮搞硬件的,特别是NVIDA......没啥的,洗洗睡吧
前者培训时间短,上手快,费用少,短平快, 立竿见影;后者时间长,学费昂贵,但底子深,走得远。
一个高效公司这两种人,都需要。
我是一个彻彻底底的外行,看了不少专家们在这里发表的意见,仍然是一头雾水。
不知道这样的理解对不对:DeepSeek的内容是基于OpenAI的数据。OpenAI花费了大量的资源将海量的数据整理后,然后开源给任何人使用。DeepSeek就是在这个基础上优化算法的。
就好比淘金,你可能要花费大力气从一吨金矿里淘出10克粗砂(第一步),然后从10克粗砂里再精炼出1克黄金(第二步)。第一步花费的资源也许就占了全部资源的99%以上。
这样的理解可能错得离谱,请不要见笑。
我也不懂,但不是在chatgpt数据基础上
个人看法,大概可以这么简单说一下Deepseek的技术特征:
算力算法。 Deepseek 突破了美国制裁以及幻化量方自身投入的算力瓶颈,突破性的引入了“混合精度”算法,能用8位精度解决的问题,打包后放入64位GPU运算单元执行,另外还有对矩阵计算进行优化,类似于通过对稀疏矩阵的某些,局部降低矩阵计算的维度。依靠以上两门绝技,大大提高了运算效率。
训练学习方法。deepseek的团队基因就是小镇做题家。预训练材料精简,类似于小学到高中,没用的闲书可以不看,集中学习数学和编程,所谓学好数理化,走遍天下都不怕,逻辑推理分析能力训练好了,少年班或数理强化班的学生大学毕业走上社会,搞金融法律医学等等只需要再学上几本专业书摸爬滚打一番,都可以很快上手成才。相比之下Openai的贵族们从小博览群书,三字经唐诗宋词九章算术背了两千年,积累不少却难以飞跃,直到近代才打通经脉有所飞跃。从能力上来说,综合网上的一些评估,deepsek的强项就是数学和编程,其他方面可能不够全面,个人体会其答案也有理工男的特征。
还有在增强学习(RL)方面,Deepseek 不大重视每个步骤的准确率,解题过程中,凭直觉或记忆给出的推导过程可以省略,答案对了,你管我做题推导过程中有没有跳步骤呢。这样做题就快,万一做着做着发现有问题,我再回头检视我跳过的步骤,也许有错就纠正,这个就是Deepseek的所谓aha moment, 这样做题推理就比一步步死推要快,按照这个思路需练好的小模型在手机上都能开跑。
蒸馏 distill能力。 Deepseek 这个能力也很有意思,奥数培训老师可以把做题方法教给一些不同背景的集训班学生,让学生做题能力突飞猛进,甚至做到青出于蓝而胜于蓝,因为这个学生可能读过老师没读过的奇书,或者没有老师老脑筋的负担。
总而言之, 我们应该肯定Deepseek 在AI技术上的突破,打个比方来说,依靠deepserk的训练方法,应该可以用比较低的投入培养出一批有用的技术人才,但是要出现脑洞大开牛顿爱因斯坦,可能还要依靠Openai潜在的发散性思维。
硬件惨的多。
美国军工产品就是实在太贵,五角大楼干脆直接举起双手说,无法与大陆军备竞赛了。
是那帮搞硬件的,特别是NVIDA......没啥的,洗洗睡吧
前者培训时间短,上手快,费用少,短平快, 立竿见影;后者时间长,学费昂贵,但底子深,走得远。
一个高效公司这两种人,都需要。