其实就是在主流API上加一层shell,附带扩展transformers,达到一个目标,就是适应本地法规。训练方面倾斜考题权重,以期快速提高benchmark得分,好比多做模拟题博高考成绩。短期效果明显,长期效果不大。 说明一下我不是乱说。我的专业就是做算法的,也在主流期刊发表过2个算法;我也教过tofel强化班,出版过培训教材,进来400 至500分的大多人通过强化训练,一般可以提高100分左右。哈哈。
DeepSeek用许多已知的开源工具,做了一个AI,各种参数都优化到最好,甚至比美国大厂的还好。让Altman等Scaling law的忠实信徒,期望靠堆积Nvidia芯片来建立moat的,彻底破防。DeepSeek R1的推出,不仅DS那些花了大价钱的AI大厂(比如Meta),还顺便鄙视了一下美国政府的AI芯片出口管制政策。
不觉得DeepSeek只是个套壳的API,套壳套不出这么好的AI产品,也套不出这么好的用户体验。就好比说WeChat只是中国版的WhatsApp,阿里只是中国版的Amazon,这种说法,有失偏颇。中国高科技企业在内卷的同时,其创新精神,还是很值得肯定的。个人觉得近十来年做大做强的中国高科技企业,大部分有自己的绝活,并不是纯粹的copy & paste西方同类企业。比如DJI,Unitree, BYD等,就走出了属于自己的成功之路。这类中国企业,只要国际环境不出现剧烈的变化,未来会更多的涌现,因为人才,技术,资金,投资环境和国家政策等,都有利于这类高科技公司在中国的发展。
其实就是在主流API上加一层shell,附带扩展transformers,达到一个目标,就是适应本地法规。训练方面倾斜考题权重,以期快速提高benchmark得分,好比多做模拟题博高考成绩。短期效果明显,长期效果不大。
说明一下我不是乱说。我的专业就是做算法的,也在主流期刊发表过2个算法;我也教过tofel强化班,出版过培训教材,进来400 至500分的大多人通过强化训练,一般可以提高100分左右。哈哈。
DeepSeek用许多已知的开源工具,做了一个AI,各种参数都优化到最好,甚至比美国大厂的还好。让Altman等Scaling law的忠实信徒,期望靠堆积Nvidia芯片来建立moat的,彻底破防。DeepSeek R1的推出,不仅DS那些花了大价钱的AI大厂(比如Meta),还顺便鄙视了一下美国政府的AI芯片出口管制政策。
不觉得DeepSeek只是个套壳的API,套壳套不出这么好的AI产品,也套不出这么好的用户体验。就好比说WeChat只是中国版的WhatsApp,阿里只是中国版的Amazon,这种说法,有失偏颇。中国高科技企业在内卷的同时,其创新精神,还是很值得肯定的。个人觉得近十来年做大做强的中国高科技企业,大部分有自己的绝活,并不是纯粹的copy & paste西方同类企业。比如DJI,Unitree, BYD等,就走出了属于自己的成功之路。这类中国企业,只要国际环境不出现剧烈的变化,未来会更多的涌现,因为人才,技术,资金,投资环境和国家政策等,都有利于这类高科技公司在中国的发展。