被字节起诉攻击模型训练的实习生,获AI顶会最佳论文 - 2024年12月4日 / 头条新闻

5 个月前

人工智能领域顶级学术会议NIPS 2024最佳论文近日出炉，北京大学和字节跳动团队一篇关于视觉自回归模型的论文位列其中。而该文的第一作者，正是此前被字节跳动起诉索赔800万元的前实习生田某某。

北京大学和字节跳动团队获奖论文截图。

所谓自回归模型，其原理是基于序列前面的值（上下文）来预测生成后面的值，如GPT等大语言模型就是典型的自回归模型。

北京大学和字节跳动团队这篇获奖论文，则展示了自回归模型在图像生成领域的潜力。该文提出名为Visual Autoregressive Modeling（VAR，视觉自回归模型）的新型图像生成范式，能够快速学习视觉分布，并具有良好的泛化能力，从而验证了在图像领域，VAR模型也拥有自然语言处理领域自回归模型的扩展定律（Scaling Law）和零样本泛化能力。

具体效果上，VAR模型的图像生成质量、推理速度和可扩展性等性能，超越了图像生成领域中常用的扩散模型（Diffusion Transformer）。而在VAR模型提出前，自回归模型在图像生成领域的表现显著落后于扩散模型。

NIPS（神经信息处理系统大会）每年12月举行，被视为机器学习领域最具影响力的会议之一，与ICML（国际机器学习大会）齐名。2024年的NIPS将于12月10日至12月15日在加拿大温哥华召开。

上述获奖论文受到外界关注，部分缘于作者身份。在字节跳动实习期间，北京大学在读博士生田某某以第一作者发表这篇论文，但目前已陷入和字节跳动的司法纠纷。

南都11月27日报道，字节跳动起诉前实习生田某某篡改代码攻击公司内部模型训练一案，已获北京市海淀区人民法院正式受理，案由为侵权责任纠纷。字节跳动请求法院，判令田某某赔偿公司侵权损失800万元及合理支出2万元，并公开赔礼道歉。（详见：前实习生篡改代码攻击大模型训练，字节跳动起诉索赔800万）

谈及起诉缘由，字节跳动内部人士介绍，由于田某某为在读博士生，公司将其辞退后首先交由校方处理。但在事件处理期间，田某某多次对外否认，称攻击模型训练任务的不是自己，而是别的实习生。考虑到田某某完全没有意识到错误，且涉事行为已触犯公司安全红线，公司最终决定向法院起诉，以表明公司严肃态度、杜绝类似事件再次发生。

11月5日，字节跳动内部通报披露，2024年6月至7月，集团商业产品与技术部门前实习员工田某某，因对团队资源分配不满，通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务，造成资源损耗。公司已与其解除实习协议，同步阳光诚信联盟及企业反舞弊联盟，并同步至其就读学校处理。

令

令胡冲

5 个月

1 楼

这篇文章水平不错。攻击模型事件，是字节跳动水平太差，等于一次Ethnical Hacking 测试活动吧。团队水平太水了。 Gitlab Merge Requests都需要Technical Leads审核之后，任何改动才能融入Master正式上线。如果这种事情真的发生，那表明字节跳动研发负责人水平太差，根本就不明白这些算法改动，就自动上线了。等于裸泳。水平真差，怎么搞大模型？混日子呗。这能怨实习生犯错误？

2 楼

… Ethical Hacking…

相

相信事实

3 楼

就是因为他很清楚这个模型的结构，所以才可以轻易攻击模型，不矛盾

Huilianghu5

4 楼

篡改模型训练应该没有太大的资源损耗。内斗就不要广泛宣传。田某有水平，经此反而成为网红，会有不少公司抢着招聘。

护

护国中将

5 楼