【新智元导读】Nature的一篇文章透露:你发过的paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚2300万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗?全球数据告急,怎么办?论文来凑!最近,Nature的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训AI了……
据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练AI模型。一篇论文从酝酿idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训AI的数据。这合理吗?
更可气的是,自己的论文还被出版商拿来牟利了。根据Nature报告,上个月英国的学术出版商Taylor & Francis已经和微软签署了一项价值1000万美元的协议,允许微软获取它的数据,来改进AI系统。而6月的一次投资者更新显示,美国出版商Wiley允许某家公司使用其内容训模型后,直接一举豪赚2300万美元!但这个钱,跟广大论文的作者是半毛钱关系都没有的。
而且,华盛顿大学AI研究员Lucy Lu Wang还表示,即使不在可开放获取的存储库内,任何可在线阅读的内容,都很可能已经被输入LLM中。更可怕的是,如果一篇论文已经被用作模型的训练数据,在模型训练完成后,它是无法删除的。如果现在,你的论文还尚未被用于训练AI,那也不用担心——它应该很快就会了!
数据集如黄金,各大公司纷纷出价
我们都知道,LLM需要在海量数据上进行训练的,而这些数据通常是从互联网上抓取的。正是从这些训练数据中数十亿的token中,LLM推导出模式,从而生成文本、图像、代码。而学术论文篇幅又长,信息密度又高,显然就是能喂给LLM的最有价值的数据之一。而且,在大量科学信息上训练LLM,也能让它们在科学主题上的推理能力大大提高。Wang已经共同创建了基于8110万篇学术论文的数据集S2ORC。起初,S2ORC数据集是为了文本挖掘而开发的,但后来,它被用于训练LLM。2020年非营利组织Eleuther AI构建的Pile,是NLP研究中应用最广泛的大型开源数据集之一,总量达到800GB。其中就包含了大量学术来源的文本,arXiv论文比例为8.96%,此外还涵盖了PubMed、FreeLaw、NIH等其他学术网站。
前段时间开源的1T token数据集MINT也挖掘到了arXiv这个宝藏,共提取到了87万篇文档、9B token。从下面这张数据处理流程图中,我们就能发现论文数据的质量有多高——几乎不需要太多的过滤和去重,使用率极高。
而现在,为了应对版权争议,各大模型公司也开始真金白银地出价,购买高质量数据集了。今年,「金融时报」已经把自己的内容以相当可观的价格,卖给了OpenAI;Reddit也和谷歌达成了类似的协议。而以后,这样的交易也少不了。
证明论文曾被LLM使用,难度极高
有些AI开发者会开放自己的数据集,但很多开发AI模型的公司,会对大部分训练数据保密。Mozilla基金会的AI训练数据分析员Stefan Baack表示,对于这些公司的训练数据,谁都不知道有什么。而最受业内人士欢迎的数据来源,无疑就是开源存储库arXiv和学术数据库PubMed的摘要了。目前,arXiv已经托管了超过250万篇论文的全文,PubMed包含的引用数量更是惊人,超过3700万。虽然PubMed等网站的一些论文全文有付费墙,但论文摘要是免费浏览的,这部分可能早就被大科技公司抓取干净了。
所以,有没有技术方法,能识别自己的论文是否被使用了呢?目前来说,还很难。伦敦帝国理工学院的计算机科学家Yves-Alexandre de Montjoye介绍道:要证明LLM使用了某篇确定的论文,是很困难的。有一个办法,是使用论文文本中非常罕见的句子来提示模型,看看它的输出是否就是原文中的下一个词。
有学者曾以「哈利·波特与魔法石」第三章的开头提示GPT-3,模型很快正确地吐出了大约一整页书中的内容如果是的话,那就没跑了——论文就在模型的训练集中。如果不是呢?这也未必是有效证据,能证明论文未被使用。因为开发者可以对LLM进行编码,让它们过滤响应,从而不和训练数据过于匹配。可能的情况是,我们费了老大劲,依然无法明确地证明。另一种方法,就是「成员推理攻击」。
这种方法的原理,就是当模型看到以前见过的东西时,会对输出更有信心,为此,De Montjoye的团队专门开发了一种「版权陷阱」。为了设置陷阱,团队会生成看似合理却无意义的句子,并将其隐藏在作品中,比如白色背景上的白色文本或网页上显示为零宽度的字段。如果模型对未使用的控制句的困惑度,比对隐藏在文本中的控制句的困惑度更高,这就可以作为陷阱曾被看到的统计证据。
版权争议
然而,即使能证明LLM是在某篇论文上训练的,又能怎么办呢?这里,就存在一个由来已久的争议。在出版商看来,如果开发者在训练中使用了受版权保护的文本,且没有获得许可,那铁定就是侵权。但另一方却可以这样反驳:大模型并没有抄袭啊,所以何来侵权之说?
的确,LLM并没有复制任何东西,它只是从训练数据中获取信息,拆解这些内容,然后利用它们学习生成新的文本。其中更加复杂的问题,是如何划清商用和学术研究用途。根据目前arXiv网站上的使用条款,如果是个人或研究用途,抓取、存储、使用所有的电子预印本论文和网站元数据都是合规且被支持的
然而,arXiv对商业方面的使用是严令禁止的。那么问题来了,如果某个商业公司使用了学术机构发布的开源数据集训练自己的商业模型,且数据来源含有arXiv或类似学术出版机构,这怎么算?此外,出版商在用户的订阅条款中往往也没有明确规定,能否将论文用作模型的训练数据
【新智元导读】Nature的一篇文章透露:你发过的paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚2300万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗?全球数据告急,怎么办?论文来凑!最近,Nature的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训AI了……
据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练AI模型。一篇论文从酝酿idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训AI的数据。这合理吗?
更可气的是,自己的论文还被出版商拿来牟利了。根据Nature报告,上个月英国的学术出版商Taylor & Francis已经和微软签署了一项价值1000万美元的协议,允许微软获取它的数据,来改进AI系统。而6月的一次投资者更新显示,美国出版商Wiley允许某家公司使用其内容训模型后,直接一举豪赚2300万美元!但这个钱,跟广大论文的作者是半毛钱关系都没有的。
而且,华盛顿大学AI研究员Lucy Lu Wang还表示,即使不在可开放获取的存储库内,任何可在线阅读的内容,都很可能已经被输入LLM中。更可怕的是,如果一篇论文已经被用作模型的训练数据,在模型训练完成后,它是无法删除的。如果现在,你的论文还尚未被用于训练AI,那也不用担心——它应该很快就会了!
数据集如黄金,各大公司纷纷出价
我们都知道,LLM需要在海量数据上进行训练的,而这些数据通常是从互联网上抓取的。正是从这些训练数据中数十亿的token中,LLM推导出模式,从而生成文本、图像、代码。而学术论文篇幅又长,信息密度又高,显然就是能喂给LLM的最有价值的数据之一。而且,在大量科学信息上训练LLM,也能让它们在科学主题上的推理能力大大提高。Wang已经共同创建了基于8110万篇学术论文的数据集S2ORC。起初,S2ORC数据集是为了文本挖掘而开发的,但后来,它被用于训练LLM。2020年非营利组织Eleuther AI构建的Pile,是NLP研究中应用最广泛的大型开源数据集之一,总量达到800GB。其中就包含了大量学术来源的文本,arXiv论文比例为8.96%,此外还涵盖了PubMed、FreeLaw、NIH等其他学术网站。
前段时间开源的1T token数据集MINT也挖掘到了arXiv这个宝藏,共提取到了87万篇文档、9B token。从下面这张数据处理流程图中,我们就能发现论文数据的质量有多高——几乎不需要太多的过滤和去重,使用率极高。
而现在,为了应对版权争议,各大模型公司也开始真金白银地出价,购买高质量数据集了。今年,「金融时报」已经把自己的内容以相当可观的价格,卖给了OpenAI;Reddit也和谷歌达成了类似的协议。而以后,这样的交易也少不了。
证明论文曾被LLM使用,难度极高
有些AI开发者会开放自己的数据集,但很多开发AI模型的公司,会对大部分训练数据保密。Mozilla基金会的AI训练数据分析员Stefan Baack表示,对于这些公司的训练数据,谁都不知道有什么。而最受业内人士欢迎的数据来源,无疑就是开源存储库arXiv和学术数据库PubMed的摘要了。目前,arXiv已经托管了超过250万篇论文的全文,PubMed包含的引用数量更是惊人,超过3700万。虽然PubMed等网站的一些论文全文有付费墙,但论文摘要是免费浏览的,这部分可能早就被大科技公司抓取干净了。
所以,有没有技术方法,能识别自己的论文是否被使用了呢?目前来说,还很难。伦敦帝国理工学院的计算机科学家Yves-Alexandre de Montjoye介绍道:要证明LLM使用了某篇确定的论文,是很困难的。有一个办法,是使用论文文本中非常罕见的句子来提示模型,看看它的输出是否就是原文中的下一个词。
有学者曾以「哈利·波特与魔法石」第三章的开头提示GPT-3,模型很快正确地吐出了大约一整页书中的内容如果是的话,那就没跑了——论文就在模型的训练集中。如果不是呢?这也未必是有效证据,能证明论文未被使用。因为开发者可以对LLM进行编码,让它们过滤响应,从而不和训练数据过于匹配。可能的情况是,我们费了老大劲,依然无法明确地证明。另一种方法,就是「成员推理攻击」。
这种方法的原理,就是当模型看到以前见过的东西时,会对输出更有信心,为此,De Montjoye的团队专门开发了一种「版权陷阱」。为了设置陷阱,团队会生成看似合理却无意义的句子,并将其隐藏在作品中,比如白色背景上的白色文本或网页上显示为零宽度的字段。如果模型对未使用的控制句的困惑度,比对隐藏在文本中的控制句的困惑度更高,这就可以作为陷阱曾被看到的统计证据。
版权争议
然而,即使能证明LLM是在某篇论文上训练的,又能怎么办呢?这里,就存在一个由来已久的争议。在出版商看来,如果开发者在训练中使用了受版权保护的文本,且没有获得许可,那铁定就是侵权。但另一方却可以这样反驳:大模型并没有抄袭啊,所以何来侵权之说?
的确,LLM并没有复制任何东西,它只是从训练数据中获取信息,拆解这些内容,然后利用它们学习生成新的文本。其中更加复杂的问题,是如何划清商用和学术研究用途。根据目前arXiv网站上的使用条款,如果是个人或研究用途,抓取、存储、使用所有的电子预印本论文和网站元数据都是合规且被支持的
然而,arXiv对商业方面的使用是严令禁止的。那么问题来了,如果某个商业公司使用了学术机构发布的开源数据集训练自己的商业模型,且数据来源含有arXiv或类似学术出版机构,这怎么算?此外,出版商在用户的订阅条款中往往也没有明确规定,能否将论文用作模型的训练数据