家人们,大模型圈儿出了个惊天大瓜—— 斯坦福AI团队,竟然曝出了抄袭事件,而且抄袭的还是中国国产的大模型成果——模型结构和代码,几乎一模一样!跟任何抄袭事故一样……AI圈内都惊呆了。 斯坦福的这项研究叫做Llama3-V,是于5月29日新鲜发布,宣称只需要500美元就能训出一个SOTA多模态大模型,比GPT-4V、Gemini Ultra、Claude Opus都强。 Llama3-V的3位作者或许是拥有名校头衔加持,又有特斯拉、SpaceX的大厂相关背景,这个项目短短几天就受到了不小的关注。 甚至一度冲上了HuggingFace趋势榜首页: 然而,戏剧性的一幕开始上演了。 有位细心的网友发现,咦?这“配方”怎么如此的熟悉? 然后他定睛一看,好家伙,这不就是MiniCPM-Llama3-V 2.5(出自清华系明星创业公司面壁智能)嘛。 于是这位网友便跑到面壁智能GitHub项目下开始爆料了: 你们家大模型被斯坦福团队抄袭了! 并且他还附上了一堆的证据,最直接的莫过于这张2个模型代码的对比图了: Emmm……用这位网友的话来说就是: 模型结构、代码、配置文件,简直一模一样,只是变量名变了而已。 至于为什么这位网友要跑到面壁智能GitHub项目下面留言,是因为他之前已经给Llama3-V作者留过言了,但斯坦福团队的做法竟是删库跑路…… 没错,现在不论是GitHub还是HuggingFace,统统都是404: 并且这事现在还在持续发酵的过程中,网上吃瓜的群众也是越来越多。 那么我先来一同回顾一下这件drama事情的始末。 “代码和架构一模一样” 正如刚才所述,一个网友爆料Llama3-V抄袭MiniCPM-Llama3-V 2.5,跑到面壁智能的GitHub主页提醒团队注意,并把关键证据都一一截图列举整理了下来,这才有了整个抄袭门的还原现场。 以下是来自这位网友的证据。 证据一,Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同: 看下面的例子,配置文件就改了图像切片、分词器、重采样器和数据加载等格式化和变量名: Llama3-V作者表示参考了LLaVA-UHD架构,在ViT和LLM等选择上有一些差异。但实际上,网友发现他们的具体实现在空间模式等很多方面都与LLaVA-UHD不同,却出奇与MiniCPM-Llama3-V 2.5一致。 甚至,Llama3-V还用了MiniCPM-Llama3-V 2.5的分词器,连MiniCPM-Llama3-V 2.5定义的特殊符号都能“巧合”实属离谱。 证据二,网友质疑Llama3-V作者是如何在MinicPM-Llama3-V2.5项目发布之前就使用上MinicPM-Llama3-V2.5分词器的。 Llama3-V作者给的回复是这样婶儿的,说是用的面壁智能上一代MinicPM-V-2项目的: 但事实却是,HuggingFace中,MiniCPM-V2与MiniCPM-Llama3-V 2.5分词器分别是两个文件,文件大小也完全不同。 MiniCPM-Llama3-V 2.5的分词器是用Llama3分词器加上MiniCPM-V系列模型的特殊token组成,而MiniCPM-V2的发布都在Llama3开源之前,怎么会有Llama3分词器。 证据三,Llama3-V作者随后无故删除了网友在Llama3-V页面上提交的质疑他们抄袭的问题。 而且,他们似乎对MiniCPM-Llama3-V 2.5架构或他们自己的代码都不完全了解。 感知器重采样器(Perceiver resampler)是单层交叉注意力,而不是双层自注意力。但是下图所示Llama3-V的技术博客里作者的理解很明显是错的。 SigLIP的Sigmoid激活也不用于训练多模态大语言模型,而仅用于预训练SigLIP。 视觉特征提取不需要Sigmoid激活: 基于以上三点事实,这位网友认为足以证据证明Llama3-V项目窃取了MiniCPM-Llama3-V 2.5项目的学术成果。 但还没完,他随后又补充了两点证据。 几天前,当这位网友尝试运行Llama3-V时,发现他们提供的代码无法与HuggingFace的checkpoint一起使用,反馈问题没有得到作者回复。 于是网友把从HuggingFace下载的Llama3-V模型权重中的变量名改成了MiniCPM-Llama3-V 2.5的,惊奇发现模型居然可以用MiniCPM-V代码成功运行。 此外,如果将高斯噪声(由单个标量参数化)添加到MiniCPM-Llama3-V 2.5的checkpoint,结果就是会得到一个行为与Llama3-V极其相似的模型。 收到网友的提醒后,MiniCPM-Llama3-V 2.5团队这边也迅速展开了调查,他们按照网友的在GitHub上的说明,使用 Llama3-V的checkpoint和MiniCPM-Llama3-V 2.5的代码和配置文件正确获取了推理结果。 于是,一个更为关键性的证据出现了。 Llama3-V在一些未公开的实验性特征上表现出与MiniCPM-Llama3-V 2.5高度相似的行为,而这些特征是根据MiniCPM-Llama3-V 2.5团队内部数据训练的。 例如,识别清华简! MiniCPM-Llama3-V 2.5特有的功能之一是识别清华简,这是一种非常罕见、于战国时期写在竹子上的中国古代文字。 训练图像是从最近出土的文物中扫描出来的,由MiniCPM-Llama3-V 2.5团队进行了标注,尚未公开发布。 而Llama3-V的识别情况和MiniCPM-Llama3-V 2.5极为相似。 识别错误的情况竟也出奇一致: MiniCPM-Llama3-V 2.5团队还在1000 张竹简图像上测试了几种基于Llama3的视觉-语言模型,并比较了每对模型的预测精确匹配。 结果,每两个模型之间的重叠为零,而Llama3-V和MiniCPM-Llama3-V 2.5之间的&&重叠达到了惊人的87%**。 此外,MiniCPM-Llama3-V 2.5和Llama3-V甚至具有相似的错误分布。Llama3-V和MiniCPM-Llama3-V 2.5分别做出 236和194个错误预测,重叠部分为182个。 且按照网友在GitHub上的指令获得的MiniCPM-Llama3-V2.5-noisy显示出与Llama3-V几乎相同的定量结果,真令人匪夷所思…… 在另一个MiniCPM-Llama3-V 2.5内部数据上训练的未公开功能——WebAgent上,也出现了同样的情况。 Llama3-V甚至和MiniCPM-Llama3-V 2.5团队新定义的WebAgent模式中犯的错误都一样。 鉴于这些结果,MiniCPM-Llama3-V 2.5团队表示很难将这种不寻常的相似性解释为巧合,希望Llama3-V作者能对这个问题给出一个正式的解释。 斯坦福团队已删库跑路 虽然斯坦福的2位本科生已经下架了几乎所有与之相关的项目,但其实在此之前,他们最初在面对质疑的时候还是做出了些许的解释。 例如他们强调,Llama3-V这项工作的时间是要早于面壁智能的MiniCPM,只是使用了他们的tokenizer。 不过作者对Medium上的声明还是做了保留: 非常感谢那些在评论中指出与之前研究相似之处的人。 我们意识到我们的架构非常类似于OpenBMB的“MiniCPM-Llama3-V 2.5,他们在实现上比我们抢先一步。 我们已经删除了关于作者的原始模型。 对此,一部分网友表示,既然选择删掉项目,那么就表示确实存在一定的问题。 不过另一方面,对于抄袭这事也有不一样的声音—— MiniCPM-Llama3-V 2.5不也是在Llama3的基础上做的改良吗?不过连tokenizer都直接拿来用就应该不算是借鉴了。 而就在刚刚,另一个戏剧性的事情发生了。 斯坦福的作者在中午时间做出了最新的回应: 但现在……这条回应又删掉了 而面壁智能这边,CEO李大海也做出了正式回应: 参考链接: [1]https://github.com/OpenBMB/MiniCPM-V/issues/196 [2]https://github.com/mustafaaljadery/Llama3-V [3]https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/ [4]https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/?rdt=41696&onetap_auto=true&one_tap=true [5]https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee
家人们,大模型圈儿出了个惊天大瓜——
![](http://cdn.wenxuecity.com/data/news/202406/04/5f255312eceab2a3b564bf98e844e6d8.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/7ac019a66df1c4af99b3ab0a8f089d6b.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/94722f0f5c47acb590a5beb4e329bb89.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/1c087d03742865927d1acff8f93cef6f.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/cdd404bc6c5f26c5cc9252c806841dc3.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/fcd4ab2972f4bdcc78056a614f92ea2d.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/e9ae338f0a387034a15109743c447a39.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/cc3f0aaffb5115000733105b30fec1d9.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/372cbc8a64c3dcf8696fc84f38cd2243.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/9a03c6aa9b5f72102843a610498ac31c.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/7a7d3de048c66addb71c218fcde1ce26.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/792a928dde6ef6d4777d97bbc2c721df.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/f04041d56247dbc1c2a6b0847c937249.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/ba31c1858f32a12cc06e030100681fdd.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/c022ca1b1fbe2f4b7892a06dfaa076bf.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/6ea7a5982554dc355d1cdf8d5d6f5d71.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/580245b6d3cf6ff2499b338812c30365.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/35466caf91b602cb75d35a8bbe4e2cdb.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/49f9f4fc4d65cdae31d61477de7b41d2.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/4215f5efceaf352006f3062e0e9ea41b.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/f2d57b99e83fea379d3f6d9c2e744c01.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/c7732e4b23fa10d7e6d1c68c95620613.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/018e5762618dd23dc77a23651b3ac078.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/77e37a1ce601b6ca37352857e5b70483.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/8e0a22b4c8b1c490314ff3de711600b5.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/5639672e93eace04c77a213f80b23a7b.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/13a6b6d6b3233d2b95e7857820671856.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/1d866c10f3d8367db78d264a43f3a751.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/e197c9c58e32a17309017aae2c6e97bb.webp)
![](http://cdn.wenxuecity.com/data/news/202406/04/e004a927e4b458eff5285c63cc42c954.webp)
斯坦福AI团队,竟然曝出了抄袭事件,而且抄袭的还是中国国产的大模型成果——模型结构和代码,几乎一模一样!跟任何抄袭事故一样……AI圈内都惊呆了。
斯坦福的这项研究叫做Llama3-V,是于5月29日新鲜发布,宣称只需要500美元就能训出一个SOTA多模态大模型,比GPT-4V、Gemini Ultra、Claude Opus都强。
Llama3-V的3位作者或许是拥有名校头衔加持,又有特斯拉、SpaceX的大厂相关背景,这个项目短短几天就受到了不小的关注。
甚至一度冲上了HuggingFace趋势榜首页:
然而,戏剧性的一幕开始上演了。
有位细心的网友发现,咦?这“配方”怎么如此的熟悉?
然后他定睛一看,好家伙,这不就是MiniCPM-Llama3-V 2.5(出自清华系明星创业公司面壁智能)嘛。
于是这位网友便跑到面壁智能GitHub项目下开始爆料了:
你们家大模型被斯坦福团队抄袭了!
并且他还附上了一堆的证据,最直接的莫过于这张2个模型代码的对比图了:
Emmm……用这位网友的话来说就是:
模型结构、代码、配置文件,简直一模一样,只是变量名变了而已。
至于为什么这位网友要跑到面壁智能GitHub项目下面留言,是因为他之前已经给Llama3-V作者留过言了,但斯坦福团队的做法竟是删库跑路……
没错,现在不论是GitHub还是HuggingFace,统统都是404:
并且这事现在还在持续发酵的过程中,网上吃瓜的群众也是越来越多。
那么我先来一同回顾一下这件drama事情的始末。
“代码和架构一模一样”
正如刚才所述,一个网友爆料Llama3-V抄袭MiniCPM-Llama3-V 2.5,跑到面壁智能的GitHub主页提醒团队注意,并把关键证据都一一截图列举整理了下来,这才有了整个抄袭门的还原现场。
以下是来自这位网友的证据。
证据一,Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同:
看下面的例子,配置文件就改了图像切片、分词器、重采样器和数据加载等格式化和变量名:
Llama3-V作者表示参考了LLaVA-UHD架构,在ViT和LLM等选择上有一些差异。但实际上,网友发现他们的具体实现在空间模式等很多方面都与LLaVA-UHD不同,却出奇与MiniCPM-Llama3-V 2.5一致。
甚至,Llama3-V还用了MiniCPM-Llama3-V 2.5的分词器,连MiniCPM-Llama3-V 2.5定义的特殊符号都能“巧合”实属离谱。
证据二,网友质疑Llama3-V作者是如何在MinicPM-Llama3-V2.5项目发布之前就使用上MinicPM-Llama3-V2.5分词器的。
Llama3-V作者给的回复是这样婶儿的,说是用的面壁智能上一代MinicPM-V-2项目的:
但事实却是,HuggingFace中,MiniCPM-V2与MiniCPM-Llama3-V 2.5分词器分别是两个文件,文件大小也完全不同。
MiniCPM-Llama3-V 2.5的分词器是用Llama3分词器加上MiniCPM-V系列模型的特殊token组成,而MiniCPM-V2的发布都在Llama3开源之前,怎么会有Llama3分词器。
证据三,Llama3-V作者随后无故删除了网友在Llama3-V页面上提交的质疑他们抄袭的问题。
而且,他们似乎对MiniCPM-Llama3-V 2.5架构或他们自己的代码都不完全了解。
感知器重采样器(Perceiver resampler)是单层交叉注意力,而不是双层自注意力。但是下图所示Llama3-V的技术博客里作者的理解很明显是错的。
SigLIP的Sigmoid激活也不用于训练多模态大语言模型,而仅用于预训练SigLIP。
视觉特征提取不需要Sigmoid激活:
基于以上三点事实,这位网友认为足以证据证明Llama3-V项目窃取了MiniCPM-Llama3-V 2.5项目的学术成果。
但还没完,他随后又补充了两点证据。
几天前,当这位网友尝试运行Llama3-V时,发现他们提供的代码无法与HuggingFace的checkpoint一起使用,反馈问题没有得到作者回复。
于是网友把从HuggingFace下载的Llama3-V模型权重中的变量名改成了MiniCPM-Llama3-V 2.5的,惊奇发现模型居然可以用MiniCPM-V代码成功运行。
此外,如果将高斯噪声(由单个标量参数化)添加到MiniCPM-Llama3-V 2.5的checkpoint,结果就是会得到一个行为与Llama3-V极其相似的模型。
收到网友的提醒后,MiniCPM-Llama3-V 2.5团队这边也迅速展开了调查,他们按照网友的在GitHub上的说明,使用 Llama3-V的checkpoint和MiniCPM-Llama3-V 2.5的代码和配置文件正确获取了推理结果。
于是,一个更为关键性的证据出现了。
Llama3-V在一些未公开的实验性特征上表现出与MiniCPM-Llama3-V 2.5高度相似的行为,而这些特征是根据MiniCPM-Llama3-V 2.5团队内部数据训练的。
例如,识别清华简!
MiniCPM-Llama3-V 2.5特有的功能之一是识别清华简,这是一种非常罕见、于战国时期写在竹子上的中国古代文字。
训练图像是从最近出土的文物中扫描出来的,由MiniCPM-Llama3-V 2.5团队进行了标注,尚未公开发布。
而Llama3-V的识别情况和MiniCPM-Llama3-V 2.5极为相似。
识别错误的情况竟也出奇一致:
MiniCPM-Llama3-V 2.5团队还在1000 张竹简图像上测试了几种基于Llama3的视觉-语言模型,并比较了每对模型的预测精确匹配。
结果,每两个模型之间的重叠为零,而Llama3-V和MiniCPM-Llama3-V 2.5之间的&&重叠达到了惊人的87%**。
此外,MiniCPM-Llama3-V 2.5和Llama3-V甚至具有相似的错误分布。Llama3-V和MiniCPM-Llama3-V 2.5分别做出 236和194个错误预测,重叠部分为182个。
且按照网友在GitHub上的指令获得的MiniCPM-Llama3-V2.5-noisy显示出与Llama3-V几乎相同的定量结果,真令人匪夷所思……
在另一个MiniCPM-Llama3-V 2.5内部数据上训练的未公开功能——WebAgent上,也出现了同样的情况。
Llama3-V甚至和MiniCPM-Llama3-V 2.5团队新定义的WebAgent模式中犯的错误都一样。
鉴于这些结果,MiniCPM-Llama3-V 2.5团队表示很难将这种不寻常的相似性解释为巧合,希望Llama3-V作者能对这个问题给出一个正式的解释。
斯坦福团队已删库跑路
虽然斯坦福的2位本科生已经下架了几乎所有与之相关的项目,但其实在此之前,他们最初在面对质疑的时候还是做出了些许的解释。
例如他们强调,Llama3-V这项工作的时间是要早于面壁智能的MiniCPM,只是使用了他们的tokenizer。
不过作者对Medium上的声明还是做了保留:
非常感谢那些在评论中指出与之前研究相似之处的人。
我们意识到我们的架构非常类似于OpenBMB的“MiniCPM-Llama3-V 2.5,他们在实现上比我们抢先一步。
我们已经删除了关于作者的原始模型。
对此,一部分网友表示,既然选择删掉项目,那么就表示确实存在一定的问题。
不过另一方面,对于抄袭这事也有不一样的声音——
MiniCPM-Llama3-V 2.5不也是在Llama3的基础上做的改良吗?不过连tokenizer都直接拿来用就应该不算是借鉴了。
而就在刚刚,另一个戏剧性的事情发生了。
斯坦福的作者在中午时间做出了最新的回应:
但现在……这条回应又删掉了
而面壁智能这边,CEO李大海也做出了正式回应:
参考链接:
[1]https://github.com/OpenBMB/MiniCPM-V/issues/196
[2]https://github.com/mustafaaljadery/Llama3-V
[3]https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/
[4]https://www.reddit.com/r/LocalLLaMA/comments/1d6f1f3/Llama3-V_project_is_stealing_a_lot_of_academic/?rdt=41696&onetap_auto=true&one_tap=true
[5]https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee