香港大学何 Junxian老师复刻DeepSeek训练

m
minqidev
楼主 (北美华人网)


对于这次开源,很多人质疑是假的, 这两天很多机构都成功复刻,包括hugging face的团队,现在,甚至没有非常强大硬件背景的人也能还原训练了。
将来真的就相当于PC进入平常百姓家了

c
cloudy
minqidev 发表于 2025-01-26 18:51


对于这次开源,很多人质疑是假的, 这两天很多机构都成功复刻,包括hugging face的团队,现在,甚至没有非常强大硬件背景的人也能还原训练了。
将来真的就相当于PC进入平常百姓家了


太学术了
很多人甚至不懂 reinforcement learning 和 supervised training 之间的区别
m
minqidev
回复 2楼 的帖子
一个是让AI自学,只给一个答案。让AI总结规律,然后用自学的规律再去学其他的
一个是不停的人工打标签,然后让AI套出答案。scale AI就是干这个