小扎说,像DS这样的Thinking模型,实际可能会加大对算力的需求,特别是对像META这样的公司。
Deepseek R1 reasoning/thinking 模型,轻训练, 重推理。将计算量,转移到推理(Inference)阶段。实测DS,也发现它要《Thinking...》好长时间。回答每个问题,要花很长时间,要花更多的计算。
对于像META这样有用户众多的公司,可能并不在效益划算。因为训练就一次,而推理每天就有上亿次。也就是说,Thinking模型 Scaling 不好。
小扎的看的确有道理。就像为什么搞大的发电厂,而不是每家都有个小发电机的道理一样。
这也就是说:NVDA 是里外里都是躺赢:
(1) OpenAI式模型:重训练(需要大量GPUs), 轻推理 (需要较少量GPU);
(2)DeepSeek式Thinking 模型: 轻训练(需要较少量GPU),重推理(需要大量GPU去支持大量用户提问题)
分析下来,*长持NVDA* 没有多少风险, 躺赢了。让花街不懂的人,去瞎折腾吧!哈哈!
除非the. Size of the data is way way smaller
DeepSeek 是reasoning模型,也就是说,在推理的时候,需要多步Thinking,才能产生好的答案。
相当于有两个学生,一个顺口就能给出答案,另一个要想一会才能给出答案。两个学生,谁更好呢?要看具体情况。
小扎说,像DS这样的Thinking模型,实际可能会加大对算力的需求,特别是对像META这样的公司。
Deepseek R1 reasoning/thinking 模型,轻训练, 重推理。将计算量,转移到推理(Inference)阶段。实测DS,也发现它要《Thinking...》好长时间。回答每个问题,要花很长时间,要花更多的计算。
对于像META这样有用户众多的公司,可能并不在效益划算。因为训练就一次,而推理每天就有上亿次。也就是说,Thinking模型 Scaling 不好。
小扎的看的确有道理。就像为什么搞大的发电厂,而不是每家都有个小发电机的道理一样。
这也就是说:NVDA 是里外里都是躺赢:
(1) OpenAI式模型:重训练(需要大量GPUs), 轻推理 (需要较少量GPU);
(2)DeepSeek式Thinking 模型: 轻训练(需要较少量GPU),重推理(需要大量GPU去支持大量用户提问题)
分析下来,*长持NVDA* 没有多少风险, 躺赢了。让花街不懂的人,去瞎折腾吧!哈哈!
除非the. Size of the data is way way smaller
DeepSeek 是reasoning模型,也就是说,在推理的时候,需要多步Thinking,才能产生好的答案。
相当于有两个学生,一个顺口就能给出答案,另一个要想一会才能给出答案。两个学生,谁更好呢?要看具体情况。