斯坦福AI团队被曝抄袭清华系大模型后删库

今日头条
Toutiao
最新回复:2024年6月4日 18点9分 PT
  返回列表
27774 阅读
30 评论
量子位

家人们,大模型圈儿出了个惊天大瓜——

斯坦福AI团队,竟然曝出了抄袭事件,而且抄袭的还是中国国产的大模型成果——模型结构和代码,几乎一模一样!跟任何抄袭事故一样……AI圈内都惊呆了。



斯坦福的这项研究叫做Llama3-V,是于5月29日新鲜发布,宣称只需要500美元就能训出一个SOTA多模态大模型,比GPT-4V、Gemini Ultra、Claude Opus都强。



Llama3-V的3位作者或许是拥有名校头衔加持,又有特斯拉、SpaceX的大厂相关背景,这个项目短短几天就受到了不小的关注。

甚至一度冲上了HuggingFace趋势榜首页:



然而,戏剧性的一幕开始上演了。

有位细心的网友发现,咦?这“配方”怎么如此的熟悉?

然后他定睛一看,好家伙,这不就是MiniCPM-Llama3-V 2.5(出自清华系明星创业公司面壁智能)嘛。

于是这位网友便跑到面壁智能GitHub项目下开始爆料了:

你们家大模型被斯坦福团队抄袭了!



并且他还附上了一堆的证据,最直接的莫过于这张2个模型代码的对比图了:



Emmm……用这位网友的话来说就是:

模型结构、代码、配置文件,简直一模一样,只是变量名变了而已。

至于为什么这位网友要跑到面壁智能GitHub项目下面留言,是因为他之前已经给Llama3-V作者留过言了,但斯坦福团队的做法竟是删库跑路……

没错,现在不论是GitHub还是HuggingFace,统统都是404



并且这事现在还在持续发酵的过程中,网上吃瓜的群众也是越来越多。



那么我先来一同回顾一下这件drama事情的始末。

“代码和架构一模一样”

正如刚才所述,一个网友爆料Llama3-V抄袭MiniCPM-Llama3-V 2.5,跑到面壁智能的GitHub主页提醒团队注意,并把关键证据都一一截图列举整理了下来,这才有了整个抄袭门的还原现场。

以下是来自这位网友的证据。

证据一,Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同:



看下面的例子,配置文件就改了图像切片、分词器、重采样器和数据加载等格式化和变量名:



Llama3-V作者表示参考了LLaVA-UHD架构,在ViT和LLM等选择上有一些差异。但实际上,网友发现他们的具体实现在空间模式等很多方面都与LLaVA-UHD不同,却出奇与MiniCPM-Llama3-V 2.5一致。

甚至,Llama3-V还用了MiniCPM-Llama3-V 2.5的分词器,连MiniCPM-Llama3-V 2.5定义的特殊符号都能“巧合”实属离谱。



证据二,网友质疑Llama3-V作者是如何在MinicPM-Llama3-V2.5项目发布之前就使用上MinicPM-Llama3-V2.5分词器的。

Llama3-V作者给的回复是这样婶儿的,说是用的面壁智能上一代MinicPM-V-2项目的:



但事实却是,HuggingFace中,MiniCPM-V2与MiniCPM-Llama3-V 2.5分词器分别是两个文件,文件大小也完全不同。

MiniCPM-Llama3-V 2.5的分词器是用Llama3分词器加上MiniCPM-V系列模型的特殊token组成,而MiniCPM-V2的发布都在Llama3开源之前,怎么会有Llama3分词器。





证据三,Llama3-V作者随后无故删除了网友在Llama3-V页面上提交的质疑他们抄袭的问题。

而且,他们似乎对MiniCPM-Llama3-V 2.5架构或他们自己的代码都不完全了解。

感知器重采样器(Perceiver resampler)是单层交叉注意力,而不是双层自注意力。但是下图所示Llama3-V的技术博客里作者的理解很明显是错的。







SigLIP的Sigmoid激活也不用于训练多模态大语言模型,而仅用于预训练SigLIP。

视觉特征提取不需要Sigmoid激活:







基于以上三点事实,这位网友认为足以证据证明Llama3-V项目窃取了MiniCPM-Llama3-V 2.5项目的学术成果。

但还没完,他随后又补充了两点证据。

几天前,当这位网友尝试运行Llama3-V时,发现他们提供的代码无法与HuggingFace的checkpoint一起使用,反馈问题没有得到作者回复。

于是网友把从HuggingFace下载的Llama3-V模型权重中的变量名改成了MiniCPM-Llama3-V 2.5的,惊奇发现模型居然可以用MiniCPM-V代码成功运行。



此外,如果将高斯噪声(由单个标量参数化)添加到MiniCPM-Llama3-V 2.5的checkpoint,结果就是会得到一个行为与Llama3-V极其相似的模型。



收到网友的提醒后,MiniCPM-Llama3-V 2.5团队这边也迅速展开了调查,他们按照网友的在GitHub上的说明,使用 Llama3-V的checkpoint和MiniCPM-Llama3-V 2.5的代码和配置文件正确获取了推理结果。

于是,一个更为关键性的证据出现了。

Llama3-V在一些未公开的实验性特征上表现出与MiniCPM-Llama3-V 2.5高度相似的行为,而这些特征是根据MiniCPM-Llama3-V 2.5团队内部数据训练的。

例如,识别清华简

MiniCPM-Llama3-V 2.5特有的功能之一是识别清华简,这是一种非常罕见、于战国时期写在竹子上的中国古代文字。

训练图像是从最近出土的文物中扫描出来的,由MiniCPM-Llama3-V 2.5团队进行了标注,尚未公开发布。

而Llama3-V的识别情况和MiniCPM-Llama3-V 2.5极为相似。



识别错误的情况竟也出奇一致:



MiniCPM-Llama3-V 2.5团队还在1000 张竹简图像上测试了几种基于Llama3的视觉-语言模型,并比较了每对模型的预测精确匹配。

结果,每两个模型之间的重叠为零,而Llama3-V和MiniCPM-Llama3-V 2.5之间的&&重叠达到了惊人的87%**。

此外,MiniCPM-Llama3-V 2.5和Llama3-V甚至具有相似的错误分布。Llama3-V和MiniCPM-Llama3-V 2.5分别做出 236和194个错误预测,重叠部分为182个。

且按照网友在GitHub上的指令获得的MiniCPM-Llama3-V2.5-noisy显示出与Llama3-V几乎相同的定量结果,真令人匪夷所思……



在另一个MiniCPM-Llama3-V 2.5内部数据上训练的未公开功能——WebAgent上,也出现了同样的情况。

Llama3-V甚至和MiniCPM-Llama3-V 2.5团队新定义的WebAgent模式中犯的错误都一样。



鉴于这些结果,MiniCPM-Llama3-V 2.5团队表示很难将这种不寻常的相似性解释为巧合,希望Llama3-V作者能对这个问题给出一个正式的解释。



斯坦福团队已删库跑路

虽然斯坦福的2位本科生已经下架了几乎所有与之相关的项目,但其实在此之前,他们最初在面对质疑的时候还是做出了些许的解释。

例如他们强调,Llama3-V这项工作的时间是要早于面壁智能的MiniCPM,只是使用了他们的tokenizer。



不过作者对Medium上的声明还是做了保留:

非常感谢那些在评论中指出与之前研究相似之处的人。

我们意识到我们的架构非常类似于OpenBMB的“MiniCPM-Llama3-V 2.5,他们在实现上比我们抢先一步。

我们已经删除了关于作者的原始模型。



对此,一部分网友表示,既然选择删掉项目,那么就表示确实存在一定的问题。

不过另一方面,对于抄袭这事也有不一样的声音——

MiniCPM-Llama3-V 2.5不也是在Llama3的基础上做的改良吗?不过连tokenizer都直接拿来用就应该不算是借鉴了。

而就在刚刚,另一个戏剧性的事情发生了。

斯坦福的作者在中午时间做出了最新的回应:



但现在……这条回应又删掉了

而面壁智能这边,CEO李大海也做出了正式回应:



参考链接:

[1]https://github.com/OpenBMB/MiniCPM-V/issues/196

[2]https://github.com/mustafaaljadery/Llama3-V

[3]https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/

[4]https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/?rdt=41696&onetap_auto=true&one_tap=true

[5]https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

弯刀月
1 楼
一窝黑木三
是我大爷
2 楼
不可能!绝对不可能!民主国家不可能发生这样的事!有可能是清华抄袭斯坦福的,只不过清华提前公布了,而斯坦福晚了一点才公布。民主国家的人太善良了!
小毛er
3 楼
那个斯坦福的学生是不是中国人?如果是那么就不奇怪了。
至清无鱼
4 楼
没被抓住的不定有多少!
A
AreyouOK?
5 楼
一楼的猜测最靠谱.
H
HP2511
6 楼
小毛er 发表评论于 2024-06-04 08:27:11 那个斯坦福的学生是不是中国人?如果是那么就不奇怪了。 ---------------- 被打脸,是一群三哥
w
wd01702
7 楼
已经在网上道歉了。看名字是两个印度裔和一个中东裔。印度人说代码都是mustafa 写的(或偷的),他们事后才知情。其实都是小毛孩,很有意思的是,已颇有领导潜质,活让别人干。出事了立马甩锅。
蓝靛厂
8 楼
wd01702 发表评论于 2024-06-04 08:44:42 ---- 阿哈哈哈哈。习主席表示忧虑
L
Lisland_2013
9 楼
一群小朋友抄来抄去。
a
alextelltale
10 楼
李开复说落后半年,其实是谦虚之表。
A
AreyouOK?
11 楼
三哥的德行, 不只表现在AI. 纵观个个行业的摆烂, 无不托三哥CEO的福. 所以说, 中国要想成世界老大, 搞垮美国, 必须和三哥搞好关系. 割点儿地, 赔点儿款都没啥. 有了三哥, 中国只需佯攻, 三哥才是搞垮美国的真正主力. 都是卧底呀.
蓝靛厂
12 楼
AreyouOK? 发表评论于 2024-06-04 08:56:43 三哥的德行, 不只表现在AI. 纵观个个行业的摆烂, 无不托三哥CEO的福. 所以说, 中国要想成世界老大, 搞垮美国, 必须和三哥搞好关系. 割点儿地, 赔点儿款都没啥. 有了三哥, 中国只需佯攻, 三哥才是搞垮美国的真正主力. 都是卧底呀 --- 你说的太对了。除了劈柴就没有不坑股东的三哥CEO哈
s
seator
13 楼
比较有趣的是抄的时候清华的模型还没发布,那是怎么抄到的?
只看不回贴1208
14 楼
都是meta的code。
心无所住
15 楼
斯坦偷大学
N
Nevermind666
16 楼
说实在的,互联网泡泡十几年,现在人心浮躁都想在资本市场上发大财,都是抄来抄去骗投资。 能静下心来真正做事的太少了。
N
Nevermind666
17 楼
AI,互联网流行fake it until make it. 这样的项目不知道有多少。。。。
m
markyang
18 楼
在开源社区,这种事情其实是经常发生的,不同的是需要注明来源,以及反馈贡献新的code,显然这个事件更多的是开源社区的故事,现在发现的不会是第一个,以后也不会终止,笑一笑就可以了,对比很多商业性开发都不提及大规模用到的开源项目,那个才是更加恶劣的行为
N
Nevermind666
19 楼
现在流行几个刚大学毕业没几年的就号称开发了不得了的东西的,80%都是从开源抄来骗投资的。
t
touchlife
20 楼
印度人抄中国人的代码?这不是很常见的吗?lol
g
groogle
21 楼
哎呀 把 Xi AI 给抄过来了 以后不来两句习语录 AI都不会说话了
L
LLFDD
22 楼
这有啥可奇怪的,AI不就是干这个的吗?抄一抄,拼一拼,就AGI啦。
渤海
23 楼
斯坦福共大,"中国女留学生"管儿灵,带领的团队研究哒?呵呵。
h
hagerty
24 楼
看人家三哥这水平,不能光会抄,还得会甩锅。
l
land2c
25 楼
Llama3 是Meta的大语言模型,又是开源的。这些code不应该都是从Meta来的吗?
C
Californian
26 楼
一个想赚钱的CEO跟两个想赚钱大二还是孩子的本科生借AI大牛斯坦福的名声认真,然后含糊称是斯坦福团队(确实是小伙伴 toy project 团队不是李飞飞这种正规科研团队),本身就很掉价。看看自己,不也是用人家开源码的吗?只准我偷,不准你偷。这是用斯坦福来蹭流量,有些用力过猛,不过从社会反应看确实能消费国人的爱国自豪感, 连国家级的新观察网和清华副校长都中招了,简直是个大笑话!
w
worley
27 楼
清华也是抄袭美国公司Meta的Llama3
w
worley
28 楼
简单地说:清华抄袭了美国公司Meta的,然后又被印度人抄袭了? 问题来了,Llama3是美国公司Meta抄袭谁的?
B
Bukanuirusu
29 楼
都是才抄Meta的, 彼此彼此。
玻璃坊
30 楼
道歉了 https://technode.com/2024/06/04/stanford-ai-project-authors-apologize-for-plagiarizing-chinese-large-language-model/