所有的成功都是站在巨人的肩膀上负重而来,没有什么捷径。刚读完DS第一版发布的技术论文,就对LLM作了很多工程改进,

成功的飞过
楼主 (文学城)

 

花了很多精力探索、调试最优宏观参数组合。而且花了很多精力prepare培训数据(The filtering stage enhances the density of information). 抛弃了简单以参数量度量模型复杂度,改用 IsoFLOP。抛弃了简单的Cosine学习速度计划,改用多级进阶式学习速度计划。等等等等。

成功绝非偶然,也不是一蹴而就。

这还只是第一版,引起轰动的DS R1是其第四版。

 

 

 

静静的顿河02
赞passion. 以后抬杠底气也足些。
成功的飞过
也赞你抬杠的passion,LOL
p
phobos
贾岛的孤寒、香山的捣练妇人,或东坡鲁直佛印的synergy?
p
phobos
你俩像极了鲁直怼东坡,佛印抚掌大喜
o
oryzivore
飞过哥虽然灌水多,那还是因为读的多有积累
静静的顿河02
理不辩不明。
成功的飞过
云深不知处
a
amiyumi
看来数据培训还是中国人占优势。
成功的飞过
我觉得更大的因素是他们一步一步地提高了模型的底层结构和算法
B
Bailey4321
只有你一个人去看paper了?或者就是看明白的人都不说话。lol
正园
网上传言,有一个本科北师大的女孩主导了DS的第二版本,现在被小米以千万人民币(还是4千万?)聘用。
想做土家人
做得早,体量大,数据海就是人工智能的养分,根据要求一个受精卵能裂变分化到孕育胎儿,养分就是数据喂出来的
成功的飞过
真金实银最有说服力
a
amiyumi
应该是这样的
静静的顿河02
小猪爸深度学习后值200万,保守估计。
京男
留下来股票

轻松上亿

成功的飞过
金猪马米,那是面筋妈,LOL
成功的飞过
好奇害死猫
B
Bailey4321
紫檀派你继续去学习。拍杏!
专业潜水妈
我前几周就扫过几眼,看不懂:)需要从transformer 那篇补课
B
Bailey4321
你太强了。这里除了你俩,可能还有几个。其他人都在拍脑门