OpenAI称有证据显示DeepSeek存在侵权行为

今日头条
Toutiao
最新回复:2025年1月29日 15点28分 PT
  返回列表
17010 阅读
63 评论
VOA美国之音

金融时报:OpenAI称有证据显示DeepSeek存在侵权行为 https://t.co/BnOmagPIRR

— 美国之音中文网 (@VOAChinese) January 29, 2025

中国科技公司DeepSeek在美国人工智能行业引发的剧烈震动已经持续数日,一些不同的声音正在不断传出。伦敦金融时报周三(1月29日)报道说,美国人工智能聊天机器人ChatGPT的开发者OpenAI指出,它已经发现证据表明,中国初创公司DeepSeek使用OpenAI专有模型来训练自己的开源聊天机器人。这给那些怀疑这家中国公司可能存在侵犯知识产权行为的人提供了新的佐证。

金融时报说,这家总部位于美国旧金山的ChatGPT制造商表示,它已经看到了一些有关DeepSeek公司开发者通过“蒸馏”(distillation)技术侵权的证据。

所谓“蒸馏”技术是指开发者使用更强大的模型输出训练小模型,从而以更低的成本取得更高性能的一种做法。

金融时报说,这是业界常见的做法,但问题是,DeepSeek开发的智能聊天机器人与OpenAI的ChatGPT属于同类竞争产品,它的这种做法涉嫌侵犯OpenAI规定的产品使用条款,可能构成侵权。

报道引用一名与OpenAI关系密切人士的话说,“问题是你(将其从平台中取出)为了你自己的目的而创建自己的模型。”

特斯拉首席执行长埃隆·马斯克(Elon Musk)据报近日也指出,他不相信DeepSeek所说的AI研发能力,也怀疑这家中国公司拥有的英伟达显卡数量要比它公布的数量多很多。

科技信息网站“TheVerge.com”周三刊文说,OpenAI和美国科技巨头微软公司正在调查这家中国竞争对手是否使用OpenAI的API(应用程序界面)将OpenAI的人工智能模型集成到DeepSeek自己的模型中。消息人士称,微软安全研究人员在2024年底发现大量数据通过OpenAI开发者账户被泄露,微软公司认为这个账户与DeepSeek存在关联。

金融时报说,OpenAI拒绝发表更多的评论,或提供详细的证据。该公司的产品使用条款明确规定用户不能“复制”其任何服务或“使用其输出开发与OpenAI竞争的模型”。

DeepSeek发布的R1推理模型令市场、投资者和美国硅谷的科技公司都感到惊讶。这款模型成本低,排名高,水平堪比美国领先的模型。

DeepSeek的模型上周末发布后触发美国科技股周一大跌。美国AI芯片巨头英伟达股票下跌17%,其市值蒸发近6000亿美元。投资人担心,美国通过巨额投资发展AI的模式可能存在很大的泡沫,这会引起市场对它们的价值重新评估。不过,周二,市场的焦虑有所平复,纳指回升400多点,英伟达的股票也反弹九个百分点。

另据美国财经媒体彭博社消息,一位知情人士说,OpenAI及其合作伙伴微软去年调查了据信是DeepSeek使用OpenAI应用程序编程接口(API)的账户,并因怀疑其使用蒸馏技术违反服务条款而取消了其访问权。

金融时报说,微软谢绝置评,OpenAI也没有很快恢复置评请求。DeepSeek可能因中国春节放假而没有对其置评请求作出回应。

美国总统特朗普的人工智能和加密货币事务顾问戴维·萨克斯(David Sacks)早些时候表示,“有可能”发生了知识产权盗窃事件。

萨克斯周二接受福克斯新闻采访时表示,“人工智能中有一种技术叫做蒸馏”,说的是一个模型在从另一个模型中学习的过程中能够从母版模型中汲取知识。

金融时报引用萨克斯的话说,“有大量证据表明DeepSeek所做的就是从OpenAI的模型中提取知识,我认为OpenAI对此是不会满意的。”

DeepSeek称,自己仅使用了2048个英伟达H800显卡,并花费了560万美元来训练具有6710亿个参数的V3模型,这只是OpenAI和谷歌训练同等规模模型费用的一小部分。

一些专家表示,该模型生成响应表明它已经接受了OpenAI GPT-4输出的训练,这违反了其服务条款。

业内人士表示,中国和美国的人工智能实验室使用OpenAI等公司的输出结果是一种常见的做法,这些公司已花钱请人教他们的模型做出听起来更像人类的回答。

内部人士说,这种做法即昂贵又耗费人力,小公司通常会采用“搭便车”的方法做这项工作。

OpenAI在最新声明中表示,“我们知道(中国)的公司以及其他公司正在不断尝试从美国领先人工智能公司的模型中提炼(它们需要的东西)。”

这一做法凸显了热衷于保护其技术优势的公司所面临的困难,金融时报说。

令胡冲
1 楼
OpenAI的侵权行为呢?
老李子
2 楼
又被抓住了
t
tudoutudou99
3 楼
开发员英文不好,根本看不懂Open AI的使用协议,这只能怪习主席不让学英文。 习主席号召大胆去偷,才能多快好省。
F
FollowNature
4 楼
这些公司用的资料包括图片,绘画,小说,科技文献等,很多都没有得到授权。也就是说存在侵权行为。当然,要是直接拿人家已经训练的模型从中提取,也是侵权。
北美小镇
5 楼
呵呵,遥遥领先又露陷了。
墙头的一朵梨花
6 楼
土共粪坑国吹牛B吹了好几年的5G,哪里去了?????????
v
viBravo5
7 楼
国内人还不懂数据就是商品,如果是给个人开发员的账号,下载数据就不能转发,再生,服务协议上肯定有。 这件事如果证据确凿DeepSeek没经授权偷窃OpenAI数据训练其语言模型,对美国华人AI开发员影响很坏
Y
Yummy2000
8 楼
DeeepSeek对问题的回答,与OpenAi很相似。
i
iknowwhoiam
9 楼
终于想出能够继续骗5000亿的办法了
c
ca_lowhand
10 楼
蒸馏是肯定的不然怎么降成本。openai打压ds已经没用了。meta Google都会用ds技术开发新一代低成本模型,他们用自己大模型蒸馏就不存在侵权问题。
s
speakoutloudly
11 楼
这个在技术分析上已经确认了。ChatGP T这些模型使用真实世界的材料才进行学习。而deepseek则是使用ChatGPT 的输出来作为训练输入。相当于前者耗费大量算力整理出来半成品被它直接使用,所以才会有如此低的训练结果。这的确就是侵权。而且这里也可以看到,没有ChatGPT, DeepSeek则无法进行训练,高度依赖。这个别人一旦发现,分分钟就能截断,顺便再告一下。遥遥领先,弯道超车,如果不是踏踏实实,只靠小聪明是不可能持久的。
y
yanghuijin
12 楼
小偷指责邻居偷了他的赃物。
东北爷们
13 楼
干不过你就诽谤你侵权,国际通用伎俩。要不怎么说呢?说自己失败?
蓝天大地
14 楼
啊哈哈哈哈哈哈。Meta,OpenAI,MSFT在自己的大模型上用蒸馏技术当然没问题。但是,阿猫阿狗不能随便偷呀。用脚趾头想一下,花6百万不偷的话,有可能做得比OpenAi好吗? 又被抓了个现行。能够不断被抓现行还不断偷的,也是牛逼啊。 啊哈哈哈哈哈哈。
硅谷工匠
15 楼
有一点道理,但是没有任何证据。chapgpt从垃圾掩埋场所去全部数据,别人用精炼的数据训练模型。没毛病。大家都会这样干。
c
ca_lowhand
16 楼
ds也知道自己是偷数据行为所以直接开源了。但他也给商业用户收费来盈利,所以的确是有侵权行为。
竞选
17 楼
我初步理解,deepseek就是在chatgpt的基础之上再做些修改(进一步学习)而得到的模型。模型迭代是一种改进模型的常用手段,chatgpt4就是openai多次迭代chatgpt初始版本后的结果。这种迭代由openai自己做没有问题,但是别的公司利用openai的模型去做迭代获得的模型,就是剽窃行为,相当于拿别人的论文做些修改后当作自己的论文送去发表。
蓝天大地
18 楼
兄弟,知道用OpenAI的数据是要签协议的不?协议上明确规定不能用来做某事而你还是做了,不就是偷吗?chapgpt从垃圾掩埋场所去全部数据,您是怎么知道的?再退一步说,您知道哪个垃圾掩埋场有这种协议要签的吗?大家都偷,不表示偷就是对的呀。更何况还远远不是大家都偷呢。 洗这种地没有意思哈。 ------------------------------------------------ 硅谷工匠 发表评论于 2025-01-29 09:27:52
蓝天大地
19 楼
这不就是拿着我幸幸苦苦做出来的3D地球模型,然后在澳洲上面多加点森林,让整个球变得更好看一些吗?没有老子的球,你能做出这个让澳洲更绿的球吗?(哈哈哈,怎么觉得这么拗口) 啊哈哈哈哈哈哈哈。
湾区范儿
20 楼
别忘了中国十多年前还研制成最先进的汉芯芯片,结果却揭露出来是骗局。
硅谷工匠
21 楼
蓝天和大地 丝毫不反对你的意见。只是,那些画画的软件都是偷原作然后篡改。没人全干净
会当凌绝顶1
22 楼
新闻1: OpenAI称有证据显示DeepSeek存在侵权行为。OpenAI在最新声明中表示,“我们知道(中国)的公司以及其他公司正在不断尝试从美国领先人工智能公司的模型中提炼(它们需要的东西)。” 新闻2: DeepSeek窃取OpenAI数据?微软正展开调查。 假设,如果,我说的是“如果”,个别人模仿抄袭、偷偷摸摸,难免遭到大家质疑! 依靠“不明不白”数据、非国际原创算法、非革命性优化、后发AI开源、修、补、“不明不白”数据、白菜价,等等,并不能说明实质和关键问题! 塞克斯说:「很多证据显示,DeepSeek从OpenAI的模型中进行知识蒸馏。OpenAI应该不太高兴。」 AI独角兽Scale AI 执行长 Alexandr Wang日前受访时踢爆,Deepseek拥有大约5万个辉达最先进的H100 GPU,且拥有的数量比外界想像的更多。   美国AI新创公司Scale AI 执行长 Alexandr Wang 日前接受CNBC采访接爆料,Deepseek拥有大约5万个英伟达最先进的H100 GPU。   米尔斯说,这是一场打地鼠游戏。   耶鲁大学管理学院副院长索南菲尔德(Jeffrey Sonnenfeld)也告诉CNN, DeepSeek崛起要嘛是“史普尼克时刻”(Sputnik Moment)时,要嘛是波坦金时刻(Potemkin Moment)。亦即,DeepSeek可能带来真正的破坏性,也可能是欺骗性的,依赖于出口制裁之前囤积的辉达芯片和其他芯片。
竞选
23 楼
硅谷工匠 发表评论于 2025-01-29 09:27:52有一点道理,但是没有任何证据。 ----------- 证据是: 有人问deepseek:你叫什么名字? deepseek回答:我叫chatgpt。
竞选
24 楼
有人在YouTube上发表演讲,题目为“Deepseek錯報家門: 我是chatGPT4?! 揭秘Deepseek身世: 官方論文有真相! 低廉成本是騙局?!”: youtu.be/1O0_lrqtVCY?si=WYJG6JuW56m6jq0o&t=150 演讲者本人亲自出面,那就是敢于为她演讲的内容负法律责任的意思。
b
benzihex
25 楼
现在业内专家都在做分析。论文,模型都是公开的。OpenAI说管屁用。他用偷来的数据,做出闭源的模型。大家都想看他出糗呢。
M
Maui2021
26 楼
deepseek崩塌的有点快。哈哈。
T
TitaniumAtlas
27 楼
小偷被抓住了,然后咬定他偷的那家也是小偷。
硅谷工匠
28 楼
天下文章一大抄,现在有了律师。
爱阅读的人
29 楼
只能用这个方式来打对方了
g
groogle
30 楼
除了偷 就是骗 哈哈哈 老一套了 所谓的不吃那一套
l
luting
31 楼
可以理解,干不过,只能用法律手段了给你设绊脚石。
衡山老道
32 楼
竞选 发表评论于 2025-01-29 09:48:11 硅谷工匠 发表评论于 2025-01-29 09:27:52有一点道理,但是没有任何证据。 ----------- 证据是: 有人问deepseek:你叫什么名字? deepseek回答:我叫chatgpt。 ~~~~~~~~~~~~~~~ 只有你这种科盲才会相信这种低级谣言。 说DeepSeek用蒸馏技术把OpenAI的模型缩小,是典型的无知言论。ChatGPT4不开源,DeepSeek 如何拿到模型?没模型如何蒸馏? TMD,一帮科盲瞎BB。
l
luting
33 楼
竞选 发表评论于 2025-01-29 09:38:19我初步理解,deepseek就是在chatgpt的基础之上再做些修改(进一步学习)而得到的模型。模型迭代是一种改进模型的常用手段,chatgpt4就是openai多次迭代chatgpt初始版本后的结果 ##################################3 第一,你可以对deepseek修改提高,公司也允许你这么做,但是对不起,ChatGPT没有开源,除非有证据显示他们盗取了ChatGPT源代码和Weight; 第二,两个模型完全不同,CHATGPT比DEEPSEEK大很多 第三,你让CHATGPT自己再训练一遍,看看需要花费多少算力,你自己都做不到。当然,你可以从犄角旮旯找出侵权不分,这对任何两个竞争产品都不难
l
luting
34 楼
我看与其说Deepseek打脸ChatGPT,不如说打脸中黑们。他们郁闷了几天,终于抓住一根稻草开始喷了,但是建议做一些基本学习,不要那么无脑。
蟹粉小笼包
35 楼
一帮脑残狗粮们不懂装懂还集体高潮,OpenAI的模型是开源的么?DS的模型可是开源,你完全可以下载下来部署到本地自己进行测试。
衡山老道
36 楼
以前开源的,原模型的性能都不行,能蒸馏出性能还超过OpenAI的最新模型? 一帮反共反华的NC不学无术,只知道喷粪。
衡山老道
37 楼
若按种族划分,华人在AI领域远超其他种族,无论是在在顶级会议的论文数,还是在主要玩家中核心科技人员数。 国内的AI水平和美国差别不大,在顶级会议上的论文也仅次于美国,若把美国华人除外,美国毫无优势。
蓝天大地
38 楼
傻逼毛毛都看不懂英文吗?不知道不开源的东西也可以偷吗?不知道拿数据是合法的但是要签协议的吗?不知道OpenAI和MSFT说已经有证据了吗? 你们用你们的脚趾头想一下,6百万不用大型数据模型能够打败几百亿的利用数据模型的ChatGpt吗?你们不读世界排名第一的伯克利大学软件工程博士的分析吗? 就问一个问题,你们为什么那。么。蠢。?
T
TXZS
39 楼
“消息人士称,微软安全研究人员在2024年底发现大量数据通过OpenAI开发者账户被泄露,微软公司认为这个账户与DeepSeek存在关联。” 2024年底发现,现在才披露?!等什么呢? 证据在哪儿呢?晒出来让大家开开眼?
蓝天大地
40 楼
你急什么。事情太反常了就必有妖。你忘记当初汉芯刚发布时的全面皆嗨的时候了?汉芯当时可是遥遥领先的。。。。。。 啊哈哈哈哈哈哈。
T
TXZS
41 楼
楼下有人说 有人问deepseek:你叫什么名字? deepseek回答:我叫chatgpt。 自己试试不就知道了吗? 整天人云亦云,散播谣言,有意思吗?
衡山老道
42 楼
蓝天大地: 你不懂就不要瞎BB,即使用OpenAI最新模型蒸馏,也不可能蒸馏出性能还略胜原模型的小模型。
衡山老道
43 楼
国内由于赢家的原因,就把注意力放在如何减少训练时间上,搞出各种优化不奇怪。现在的大模型太原始,必须要有更好的模型。但短期内提出更好的模型不现实,在现有模型上做各种优化,减少参数个数,减少训练时间,是可行的。
衡山老道
44 楼
赢家—》硬件
T
TitaniumAtlas
45 楼
这撒B简直是无知者无畏啊,连数据蒸馏是啥都没搞清楚就敢跳出来骂街了 —— 衡山老道 发表评论于 2025-01-29 10:40:45 竞选 发表评论于 2025-01-29 09:48:11 硅谷工匠 发表评论于 2025-01-29 09:27:52有一点道理,但是没有任何证据。 ----------- 证据是: 有人问deepseek:你叫什么名字? deepseek回答:我叫chatgpt。 ~~~~~~~~~~~~~~~ 只有你这种科盲才会相信这种低级谣言。 说DeepSeek用蒸馏技术把OpenAI的模型缩小,是典型的无知言论。ChatGPT4不开源,DeepSeek 如何拿到模型?没模型如何蒸馏? TMD,一帮科盲瞎BB。
衡山老道
46 楼
TitaniumAtlas:你这SB做我的学生都不够格。
c
cacu
47 楼
集体诉讼Open AI侵权。免费无节操抓取互联网内容 聊天室内容
T
TitaniumAtlas
48 楼
撒B老道,就知道泼妇骂街,我来教育你: 数据集蒸馏旨在从大规模数据集中提取关键信息,生成一个小型合成数据集,使得在该小型数据集上训练的模型能达到与原始大数据集相当的性能。这种方法不仅降低了存储需求,还提高了训练效率。 这需要开源模型? ds就是借用了openai的第一步,也是耗资最大最复杂的一步。
B
BMC
49 楼
衡山老道 发表评论于 2025-01-29 10:40:45 ChatGPT4不开源,DeepSeek 如何拿到模型?没模型如何蒸馏? =================== DeepSeek 并不是直接取用OpenAI 的原始数据库,而是直接取用ChatGPT回答用户的答案。例如,如果你问ChatGPT 一加一等于多少,它会从它的数据库先取第一个”1”, 再取一个”+”, 再取第二个”1”, 再取一个”=“, 然后根据小学数学书教的方法计算出结果是”2”. 最后它给出用户答案是 1+1 = 2。有一个网站 ShareGPT专门收集ChatGPT回答用户的答案,它是公开的。DeepSeek 就是从这个网站还有其它来来源收集ChatGPT答案作为自己的数据库来训练。如果你问它一加一等于多少,它不会跟你算,而是直接使用ChatGPT已经算好了的1+1 =2 回答用户。它本身并不需要象ChatGPT那样计算,而是直接用它的计算结果。
会当凌绝顶1
50 楼
+100 TitaniumAtlas 发表评论于 2025-01-29 11:49:40 数据集蒸馏旨在从大规模数据集中提取关键信息,生成一个小型合成数据集,使得在该小型数据集上训练的模型能达到与原始大数据集相当的性能。这种方法不仅降低了存储需求,还提高了训练效率。 这需要开源模型? xx就是借用了openai的第一步,也是耗资最大最复杂的一步。
小毛er
51 楼
是不是蒸馏OpenAI看下他的模型代码就知道了。不是开源的吗?应该很容易看得出来。
衡山老道
52 楼
TitaniumAtlas : 你是典型的不懂装懂。没有原来的知识库,怎么提取好的数据集?怎么保证提取的数据集不丢失主要特征?
衡山老道
53 楼
一帮SB科盲,还班门弄斧,充当专家。
衡山老道
54 楼
BMC:这个更可笑。有很多专门做性能测试和比较的专家,DS在数学等方面略超OAI,这是能抄的?
蓝天大地
55 楼
衡山老道,这就是你的不对了。你没看伯克利计算机博士专家们的分析吗。您也是这方面的专家?那就拿出您的专业知识反驳呗,别啥都没说的瞎逼逼了。 不过呢,您在城里的名声是太差了,几乎没有人相信您的话。这个是因为您的嘴巴比鸭子还硬,输了或说错话了也坚决不承认。您说您还有啥信用。 我是川黑,还是个深度川黑。但这并不妨碍我接受他做总统,也不妨碍我承认我被那个狗屁Selzer民调误导了,更不妨碍我赞同川普的一些政策,比如所反变性和同性恋法案,反非移法案(我只是反对大规模抓捕而已)等等。大家都知道我对大加州和华盛顿州的态度,但并不妨碍我骂加州大小官员是狗官啊。现在我还是看大统领极为不顺眼呀,一样的想骂就骂。这又没有什么关系的。 您当初误测了博洛西的事情,说了个重誓。出来跟道个歉,说您错了,很难吗?要不您换个马甲也行啊。这样至少在这里您说的话好歹也值个五毛钱,您说是不? 啊哈哈哈哈哈哈哈。 ------------------------------------------------ 衡山老道 发表评论于 2025-01-29 12:12:02一帮SB科盲,还班门弄斧,充当专家。
蛋蛋88
56 楼
这不是废话吗,互相用对方结果早就是LLM最常见的操作,早些时间你问Bard/Gemini 问题Google的模型照样说自己是OpenAI, baidu最开始也一样,行业标准操作没什么奇怪的。CloseAI在这里指认侵权有些搞笑
破棉袄
57 楼
隐含的完整故事应该是这样的:一个中国大厂(可能是抖音),订阅企业版的ChatGPT,用其API没日没夜的问问题,记录答案,用这些问题和答案训练“自己的”大模型。去年这种方法被OpenAI发现了,终结了其使用ChatGPT账户。大厂自己不敢发表如此搞出来的大模型,害怕吃官司,被索赔,但是抱在怀里又心有不甘,就找个十分失败的小公司(幻方,开发AI炒股软件,让他的客户亏掉裤子)当壳,去发表这个模型,看看外界的反应。如果反应好,以后自己就放手干。如果招致诉讼,制裁,索赔等糟心事,就由幻方这个破公司扛着,大不了倒闭关门。
会当凌绝顶1
58 楼
最新:突发!Deepseek已经从意大利的苹果商店和谷歌商店下架
会当凌绝顶1
59 楼
楼下“衡山老道”骂街,证明他自己才是一个AI盲、GPT盲,顶多一知半解! +100 搞笑蓝天大地 发表评论于 2025-01-29 12:39:19 衡山老道,这就是你的不对了。你没看伯克利计算机博士专家们的分析吗。您也是这方面的专家?那就拿出您的专业知识反驳呗,别啥都没说的瞎逼逼了。 不过呢,您在城里的名声是太差了,几乎没有人相信您的话。这个是因为您的嘴巴比鸭子还硬,输了或说错话了也坚决不承认。您说您还有啥信用。 我是川黑,还是个深度川黑。但这并不妨碍我接受他做总统,也不妨碍我承认我被那个狗屁Selzer民调误导了,更不妨碍我赞同川普的一些政策,比如所反变性和同性恋法案,反非移法案(我只是反对大规模抓捕而已)等等。大家都知道我对大加州和华盛顿州的态度,但并不妨碍我骂加州大小官员是狗官啊。现在我还是看大统领极为不顺眼呀,一样的想骂就骂。这又没有什么关系的。 您当初误测了博洛西的事情,说了个重誓。出来跟道个歉,说您错了,很难吗?要不您换个马甲也行啊。这样至少在这里您说的话好歹也值个五毛钱,您说是不? 啊哈哈哈哈哈哈哈。
T
TitaniumAtlas
60 楼
老道完全不要脸啊,还SB,白跟你解释了半天
骂人不好
61 楼
哈哈哈,这事打成了一锅粥。前两天还说让子弹飞一会,这么快就破防了? 这里肯定有真懂AI的,不过多数应该都是初学者。不过还是让子弹再飞一飞。如果这么快就破防,人就丢大了。
骂人不好
62 楼
刚才查了一下,在意大利下架好像还是收集个人数据的数据安全的原因。
M
Maui2021
63 楼
用不着拍华人马匹。小偷就是小偷。你们干的事情,大家不背锅。 山老道 发表评论于 2025-01-29 10:54:12若按种族划分,华人在AI领域远超其他种族,无论是在在顶级会议的论文数,还是在主要玩家中核心科技人员数。 国内的AI水平和美国差别不大,在顶级会议上的论文也仅次于美国,若把美国华人除外,美国毫无优势。