1. 使用一种奖惩机制训练模型。所以更有效。
2. 目前逻辑,code能力强,语言能力稍差
3. Performance 强,$2 per M token, 国外大模型$60 per M token.
4. Free. 开源。
deep seek又快又准又小, 根据中国人的思维习惯,deep seek 的强化学习和奖励机制,有可能是基于规则,直奔主题的奖惩,而不是七大的大水满贯。
一般正经胡说八道的时候,就会无厘头蹦出大量的量子物理的东西来吓唬人,所以估计,他们的算法与量子物理有关。
遇事不决,问量子。这应该是共识吧。瞎猜。
1. 使用一种奖惩机制训练模型。所以更有效。
2. 目前逻辑,code能力强,语言能力稍差
3. Performance 强,$2 per M token, 国外大模型$60 per M token.
4. Free. 开源。
deep seek又快又准又小, 根据中国人的思维习惯,deep seek 的强化学习和奖励机制,有可能是基于规则,直奔主题的奖惩,而不是七大的大水满贯。
一般正经胡说八道的时候,就会无厘头蹦出大量的量子物理的东西来吓唬人,所以估计,他们的算法与量子物理有关。
遇事不决,问量子。这应该是共识吧。瞎猜。