OpenAI展开调查:DeepSeek或用被禁止技术开发模型 - 2025年1月30日 / 头条新闻

6 个月前

1月30日消息，OpenAI在美国东部时间1月29日确认，正在调查中国人工智能初创公司DeepSeek是否使用明令禁止的技术来训练其新推出的聊天机器人。

OpenAI发言人表示，该公司正在审查相关迹象，确认DeepSeek是否通过“蒸馏”（distillation）技术，从OpenAI的工具中提取了大量数据来帮助开发其自身技术。

根据OpenAI的服务条款，客户被明确禁止使用其人工智能模型的输出来开发具有竞争性的模型。

尽管OpenAI尚未明确表示将对DeepSeek采取何种具体措施，但该公司发言人强调：“我们将采取积极主动的措施来保护我们的技术，并将继续与美国政府密切合作，保护在此地（美国）构建的最先进模型。”此前，OpenAI曾表示已封禁了其怀疑存在“蒸馏”行为的账户，并与微软合作，识别这些尝试背后的主体。截至目前，微软与DeepSeek均对此报道未予置评。

在OpenAI证实对DeepSeek展开调查之前，微软和OpenAI正在联合调查一家与DeepSeek有关联的团体，它被怀疑未经授权获取了OpenAI技术输出的数据。

早在去年秋季，微软的安全研究人员就发现，可能与DeepSeek相关的个人，利用OpenAI的应用程序接口（API）提取了大量数据。作为OpenAI的技术合作伙伴及最大投资者，微软在发现这一情况后，立即通知了OpenAI。

此类行为可能违反OpenAI的服务条款，因为OpenAI明确禁止用户未经授权使用其API输出数据来训练竞争性模型。尽管DeepSeek声称其模型性能与全球顶尖人工智能模型相当，但OpenAI怀疑其背后可能并非完全依靠自主研发。此外，这一事件也引发了对行业现状的担忧：那些投入巨额美元训练先进模型的公司，可能难以阻止竞争对手复制其成果。

一些DeepSeek用户注意到，其聊天机器人有时会给出与OpenAI模型输出相似的文本。例如，一位Reddit用户分享的截图显示，DeepSeek聊天机器人曾表示：“根据OpenAI的政策，我必须避免声称自己具有意识或感知能力。”

DeepSeek在1月20日发布其新模型R1后，引发了市场的广泛关注。该模型在性能上表现出色，但其训练所用的芯片相对不够先进，这本应是难以实现的。这种现象引发了对“蒸馏”技术的讨论。蒸馏是一种通过大型模型的输出来训练小型、高效模型的方法，DeepSeek被指控利用OpenAI模型的输出进行蒸馏，从而开发出自己的技术。

特朗普时期的人工智能负责人、硅谷风险投资家大卫·萨克斯（David Sacks）明确指责DeepSeek使用了OpenAI模型的蒸馏技术来构建自身模型。“有大量证据表明DeepSeek从OpenAI模型中提取了知识，我认为OpenAI对此并不满意，”萨克斯表示，但未详细说明证据。

DeepSeek则声称，其高性能人工智能模型是通过巧妙编程实现的，例如从较不强大的芯片中挖掘更多算力。此外，DeepSeek承认使用了蒸馏技术，但声称是用于其自身模型的优化。

带

带球下山

6 个月

1 楼

真急了

琪

琪爷

6 个月

2 楼

来了又开始输不起了又开始耍赖了又开始找茬逼卖公司了老美在不要脸的道路上越走越顺了

化

化外小民

6 个月

3 楼

都他妈的开源了，让你好好看，结果你还说“相关迹象”。怎么美国的科技公司跟美国的狗粮一样傻逼了？

ceewei

6 个月

4 楼

openai的屁眼子被捅爆肛了🤣🤣🤣🤣🤣

donhai

6 个月

5 楼

竞争对象的言论不足为奇，有种上告。

googlebot

6 个月

6 楼

openAI真输了

不

不得有空格

6 个月

7 楼

闭源告开源呵呵 [1评]

jxxy1234

6 个月

8 楼

所以deepseek究竟是使用了openai的大数据集，蒸馏出自己的高质量小数据集；还是deepseek直接用chatgpt的输出数据投喂deepseek，生成自己的高质量训练成果？为啥前言不搭后语？还是我理解有问题？ [2评]

jxxy1234

6 个月

9 楼

部分开源，某些关键环节deepseek并没有开源

BTY2684

6 个月

10 楼

奥特曼女士连自己是open还是close都搞不清楚

sleepy

6 个月

11 楼

裁判，他提子没有放到盖子里！

sleepy

6 个月

12 楼

班霸：老师，他抄我笔记！老师：难怪他考试分数比你高！同学：抄没抄笔记先不说，老师，你要不要再看看你说的是什么话？

renanxing3390

6 个月

13 楼

台逼输不起了哈哈😂

goupeter

6 个月

14 楼

不就是威胁到你的饭碗了吗，直说得了呗

elseye

6 个月

15 楼

现在的指控都是'或是'、'大概'、'可能'云云，原来法治国家都是这么定罪的，难怪这些国家的民众都是新时代的低智韭菜，纳税钱时不时就用来赔偿天价冤假错案了！

qiaoba

6 个月

16 楼

小偷公司。

newerer

6 个月

17 楼

“我们将采取积极主动的措施来保护我们的技术，并将继续与美国政府密切合作，保护在此地（美国）构建的最先进模型。” ------------- 真不要脸啊假设是真的，那deepseek靠着API端口提供的极为有限的数据，训练出了更高效的模型， OPENAI没有感到羞愧？感觉OPEN AI圈不到钱了，这是最后的手段了

newerer

6 个月

18 楼

： OPEN AI的大数据应该不会开放如果说的是API接口，就是chatGPT的输出数据。这种数据极为有限，而且提供方是知情的，不然不会开放API接口。现在OPEN AI的借口是提供的输出数据不能用于建模。。。他大爷的，这个数据肯定已经收费了的

djtg

6 个月

19 楼

明显说是用ChatGPT的API接口生成了大量数据，然后用这些数据加上别的数据训练得出的高质量的模型结果。其实这是很容易看出来的，毕竟如果大量使用chatgpt的生成数据来训练，模型的回答风格会和chatgpt很像甚至可能输出的结果都一样。

dhy1998

6 个月

20 楼

DeepSeek 比油汰捅屁眼AI 模型强，管它咋整的

kkk_kk

6 个月

21 楼

一个靠堆算力卡，一个靠技术。都不是一个路线，怎么抄？差距拉开，靠阴谋论就能解决？如果实在没技术，那就好好发展远程畜牧业

犬

犬涼不高兴

6 个月

22 楼

知道奴隶主文化有多臭不要脸了吧

克

克拉军规

6 个月

23 楼

让子弹飞一会吧，不忙下结论。以前搞科研的时候，国内剽窃国外文章的，非常普遍。甚至院士级别的，都是靠造假的。希望，这次不要让人抓住把柄。

你

你有权不回答

6 个月

24 楼

连名字都抄，人家叫O1你叫R1，人家叫六代机，咦你也叫六代机 [2评]

djtg

6 个月

25 楼

生成的数据量可以很大，因为可以买很多的API接口。但是这种方法训练出来的模型的缺点是回答质量不稳定，时好时坏，问对了问题，它可以答得很好，但是部分问题可能就答非所问。

这

这个秋天

6 个月

26 楼

openAI花钱买了啥数据？没花钱用了啥数据？

sleepy

6 个月

27 楼

所以大多数人叫人类，咦还有些叫狗粮，这就体现出他们的爹妈的原创性来了

金

金山浪人

6 个月

28 楼

DeepSeek预判了西方的不要脸，打不过就会耍赖和使用下三滥的招数，所以索性开源，不靠卖软件赚钱，收点服务器费用。其实在商言商，OpenAI卖AI服务，丑国还没有法律禁止竞争对手使用服务，只要别人付钱了只要不违法你管不到别人拿去做什么，反而是设立“霸王条款”涉嫌触犯“反垄断法”，想保密的部分就不要拿出来卖,况且真的有那么好的事情OpenAI为什么不自己蒸溜自己或者反过去蒸溜DeepSeek？其实OpenAI自己更加恶劣，有内部“吹哨者”因为揭露OpenAI疯狂“白嫖”（蒸溜）出版社、网络作者的知识产权而“被消失”。

小

小甘

6 个月

29 楼

没什么可争论的。对事实先不做判断，我之前就说过，"借力“本身就是竞争的一种必然现象。故意跑在第一名的后面，让其挡风，然后储备力量，在最后时刻反超 --- 这是许多竞速比赛时的一种标准战术，本身也是“领跑者”必须要付出的代价，这种代价对美中都是如此。

TEC101

6 个月

30 楼

人家说中文，咦你这一天丧家犬也学说中文？

TEC101

6 个月

31 楼

我就想问问为啥有这技术自己不用？

vet

6 个月

32 楼

CloseAI 自己的数据怎么来的？质疑其来源合法性的小印怎么自杀的？CloseAI 难道不是蒸馏了人类的知识？

tschus

6 个月

33 楼

Open AI剽窃了网络上大量公共资源，然后说这是自己的私人资源。这情景就像当年华盛顿来美洲说我发现了牛奶与蜜糖之地，这是我的地盘，和以色列拿着圣经说中东是我的固有领土一样的强盗逻辑。

我

我是刘德华

6 个月

34 楼

Deepseek 都是开源了，也就是不怕你copy，因为核心竞争力是优化算法，这个是思路，靠堆硬件不好使。

金

金山浪人

6 个月

35 楼

都快一个星期了，除了被打脸的行业竞争对手、无良反华政客及一帮无脑狗粮在持续炒作所谓的“蒸馏”可能违法以外，没有一个AI顶级专家提出质疑甚至懒得谈论，因为所谓的“蒸馏”只是在业界常用的“雕虫小技”。以前AI大模型公司需要购买海量人工标注好的数据来训练，例如用1万张人工标注为狗的图片来训练大模型，然后用另外2千张标注为狗的图片来验证训练过的大模型来确定准确率。所谓的“蒸馏”的方法是依靠已经训练好的AI大模型代替人工来“标注”图片用于训练或者验证新的大模型，其好处是购买API的费用要远低于购买人工标注的数据，如果是自己的大模型就相当于免费。但是如果原始大模型有误判，那么新的大模型就会在错误的道路上一路狂奔得不偿失。所以一般业内一般会用“蒸馏”出来的数据做为验证之用，可以节省部分成本。

史

史前巨混

6 个月

36 楼

openai这样子真恶心，偷了互联网上的知识还说是自己的别人不能用。

史

史前巨混

6 个月

37 楼

人家六代机还在梦里，你抄袭的未来技术已经飞了。狗粮连狗都不如

Sinoroc

6 个月