所有的成功都是站在巨人的肩膀上负重而来，没有什么捷径。刚读完DS第一版发布的技术论文，就对LLM作了很多工程改进， - 2025年1月28日

← 下载《看帖神器》官方 iOS App，体验轻松追帖。

成功的飞过

5 个月

楼主 (文学城)

花了很多精力探索、调试最优宏观参数组合。而且花了很多精力prepare培训数据(The filtering stage enhances the density of information). 抛弃了简单以参数量度量模型复杂度，改用 IsoFLOP。抛弃了简单的Cosine学习速度计划，改用多级进阶式学习速度计划。等等等等。

成功绝非偶然，也不是一蹴而就。

这还只是第一版，引起轰动的DS R1是其第四版。

静静的顿河02

5 个月

赞passion. 以后抬杠底气也足些。

成功的飞过

5 个月

也赞你抬杠的passion，LOL

5 个月

贾岛的孤寒、香山的捣练妇人，或东坡鲁直佛印的synergy？

5 个月

你俩像极了鲁直怼东坡，佛印抚掌大喜

5 个月

飞过哥虽然灌水多，那还是因为读的多有积累

静静的顿河02

5 个月

理不辩不明。

成功的飞过

5 个月

云深不知处

5 个月

看来数据培训还是中国人占优势。

成功的飞过

5 个月

我觉得更大的因素是他们一步一步地提高了模型的底层结构和算法

5 个月

只有你一个人去看paper了？或者就是看明白的人都不说话。lol

5 个月

网上传言，有一个本科北师大的女孩主导了DS的第二版本，现在被小米以千万人民币（还是4千万？）聘用。

想做土家人

5 个月

做得早，体量大，数据海就是人工智能的养分，根据要求一个受精卵能裂变分化到孕育胎儿，养分就是数据喂出来的

成功的飞过

5 个月

真金实银最有说服力

5 个月

应该是这样的

静静的顿河02

5 个月

小猪爸深度学习后值200万，保守估计。

5 个月

留下来股票

轻松上亿

成功的飞过

5 个月

金猪马米，那是面筋妈，LOL

成功的飞过

5 个月

好奇害死猫

5 个月

紫檀派你继续去学习。拍杏！

专业潜水妈

5 个月

我前几周就扫过几眼，看不懂：）需要从transformer 那篇补课

5 个月

你太强了。这里除了你俩，可能还有几个。其他人都在拍脑门