DeepSeek窃取OpenAI数据?微软正展开调查

今日头条
Toutiao
最新回复:2025年1月29日 16点48分 PT
  返回列表
39819 阅读
70 评论
联合早报




撰文:联合早报

美国微软公司和OpenAI据报正在调查与中国人工智能公司深度求索(DeepSeek)有关的一个组织,是否以未经授权的方式,取得OpenAI技术输出的数据。

彭博社1月29日引述要求匿名的知情人士报道,微软的安全研究人员去年秋季观察到他们认为可能是与DeepSeek有关联的个人,使用了OpenAI应用程式编程接口(Application Programming Interface,API)窃取大量数据。

软件开发人员可付费得到API使用许可证,将OpenAI的专有人工智能模型整合到他们自己的应用。

知情人士称,作为OpenAI技术合作伙伴和最大投资者的微软,已将这个情况通知了OpenAI。

OpenAI没有回应彭博社的置评请求,微软则拒绝置评。DeepSeek和其创始人梁文锋创立的对冲基金幻方(High-Flyer)也尚未通过电邮回应置评请求。

深度求索20日发布的推理模型DeepSeek-R1,在测试表现、训练成本和开源开放程度等多个基准测试中均超越美国OpenAI公司的最新模型o1,但成本仅为o1的三十分之一。

美国总统川普的人工智能总管萨克斯(David Sacks)28日称,有充分证据能证明深度求索依靠OpenAI模型的输出,开发自己的技术。

另据路透社报道,白宫新闻秘书莱维特(Karoline Leavitt)同日表示,美国官员正在评估深度求索对国家安全的影响,国家安全委员会正在审查深度求索应用的影响。

a
alextelltale
1 楼
破防了,被超越后,整个都别扭起来了。
1
1passby
2 楼
肯定威胁美国的国家安全。现在需要调查的是中国大蒜的威胁大,还是 deepseek 的威胁大。要不问问 openAI?
v
viBravo5
3 楼
这件事如果证据确凿DeepSeek是偷窃OpenAI数据训练其模型,对在AI领域美国华人影响很坏 美国要扎紧AI模型数据的篱笆,不让没有授权的数据窃取
猫二
4 楼
狼来啦!哈哈哈
令胡冲
5 楼
扯淡。OpenAI数据百分之百来自他人。哪家给过它授权?怎么就从良了,摇身一变,自封数据贞洁检查员了? 微软调查?中国可以调查ChatGPT里是否有来自中国的中文数据!
v
viBravo5
6 楼
国内人居然有这样想法,美国人为什么笨到没想到用别的AI模型数据去训练。 国内人还不懂数据就是商品,如果是给个人开发员的账号,下载数据没有授权就转发再生就是剽窃 ,服务协议上肯定有, 这在美国是常识.
M
Maui2021
7 楼
墙内鼓励剽窃美国的东西,害海外华人,也不是一天两天了。现在国防院校被拒入境美国,也算是自找的。以后希望不要连ABC都被牵连到。 viBravo5 发表评论于 2025-01-29 09:25:50 这件事如果证据确凿DeepSeek是偷窃OpenAI数据训练其模型,对在AI领域美国华人影响很坏 美国要扎紧AI模型数据的篱笆,不让没有授权的数据窃取
t
tudoutudou99
8 楼
中国的天才都是天下无贼里的美女人才
T
TitaniumAtlas
9 楼
楼下的,open ai 用的是自己在web上抓取的数据, ds则是违反openai授权使用它的输出数据,简单的说就是使用许多账户对ChatGPT进行提问,如何用这些问答来训练自己的模型,这是明文禁止的,这类似于你买票参加展览,然后抄了人家的原创做产品卖钱,这就是偷窃。
令胡冲
10 楼
楼下,OpenAI无权在网上抓捕数据后自己转卖。只是在Web上抓取数据?好轻快的只是。
令胡冲
11 楼
要不然它深陷无数官司
X
XM25
12 楼
我做的试验支持了这个假设:对两个物理问题给出了一模一样的回答。
w
worley
13 楼
还是咱们本城最高效,第一时间就指出了DeepSeeK如何克隆ChatGPT的技术细节。 美国人反应太慢,还调查了啥啊。连DeepSeek都诚实地回答自己就是ChatGPT。 还是华人了解中国人啊。 当年,华为号称研发出七纳米芯片,然后美股和台积电也大跌。然后华为就没有下文了。
c
ca_lowhand
14 楼
openai现在是花钱买数据,成本巨大。ds的未授权蒸馏肯定是侵权了。但ds的技术思路的确是巨大创新,而且开源了。从这方面来说对整个ai行业是巨大贡献。
会当凌绝顶1
15 楼
新闻1: OpenAI称有证据显示DeepSeek存在侵权行为。OpenAI在最新声明中表示,“我们知道(中国)的公司以及其他公司正在不断尝试从美国领先人工智能公司的模型中提炼(它们需要的东西)。” 新闻2: DeepSeek窃取OpenAI数据?微软正展开调查。 假设,如果,我说的是“如果”,个别人模仿抄袭、偷偷摸摸,难免遭到大家质疑! 依靠“不明不白”数据、非国际原创算法、非革命性优化、后发AI开源、修、补、“不明不白”数据、白菜价,等等,并不能说明实质和关键问题! 塞克斯说:「很多证据显示,DeepSeek从OpenAI的模型中进行知识蒸馏。OpenAI应该不太高兴。」 AI独角兽Scale AI 执行长 Alexandr Wang日前受访时踢爆,Deepseek拥有大约5万个辉达最先进的H100 GPU,且拥有的数量比外界想像的更多。   美国AI新创公司Scale AI 执行长 Alexandr Wang 日前接受CNBC采访接爆料,Deepseek拥有大约5万个英伟达最先进的H100 GPU。   米尔斯说,这是一场打地鼠游戏。   耶鲁大学管理学院副院长索南菲尔德(Jeffrey Sonnenfeld)也告诉CNN, DeepSeek崛起要嘛是“史普尼克时刻”(Sputnik Moment)时,要嘛是波坦金时刻(Potemkin Moment)。亦即,DeepSeek可能带来真正的破坏性,也可能是欺骗性的,依赖于出口制裁之前囤积的辉达芯片和其他芯片。
T
TitaniumAtlas
16 楼
典型的强国人,你真不该留在美国。 open AI的用户协议写得很清楚,不许这样做。为什么其他的美国AI公司没有这样做就是因为遵守用户协议。使用open AI的输出数据,相当于省去了前期数据提炼的巨额工作,所以只要6,000,000就能搞出来一个模型了,可这就是偷。 —— 胡冲 发表评论于 2025-01-29 09:35:18 楼下,OpenAI无权在网上抓捕数据后自己转卖。只是在Web上抓取数据?好轻快的只是。
令胡冲
17 楼
哪条OpenAI的协议写得很清楚?
x
xihuahua
18 楼
Deepseek 根本不是不是出场公司、是一家实力雄厚的对冲基金、他们二一年前就已是英伟达显卡亚洲区最大客户之一、在这次股灾中应该获利非常巨大
注册怎么这么难
19 楼
令胡冲 发表评论于 2025-01-29 09:28:34 扯淡。OpenAI数据百分之百来自他人。哪家给过它授权?怎么就从良了,摇身一变,自封数据贞洁检查员了? 微软调查?中国可以调查ChatGPT里是否有来自中国的中文数据! ------------------------------------------- 扯淡的是你吧。OpenAI数据也存在侵权问题所以现在也在官司中、到目前为止还没解决完,但OpenAI大部分数据是买或被授权,比如与版权商的合作数据或标明引用出处的特定数据及公共开放的数据. 都存在剽窃数据行为、微软也在调查OpenAI,怎么着微软调查DeepSeek不可以吗?
x
xihuahua
20 楼
Deep seek 并非初创公司、公开新闻显示他们2021年就拥有数以万计的英伟达最新显卡
莫言无语
21 楼
原来花钱只是买了些盗窃用的工具。
x
xihuahua
22 楼
deep seek是大陆实力最强的量化对冲基金
T
TitaniumAtlas
23 楼
楼下强国令狐虫,看看chatgpt的回答,然后你去问问ds咋说。 OpenAI服务条款何处写明不允许使用输出数据用于训练自己的AI模型? OpenAI 的服务条款在 “Restrictions”(限制) 部分明确规定,用户不得使用 OpenAI 生成的输出数据来训练或开发 AI 模型。具体来说,该条款通常包含如下内容(可能会随 OpenAI 政策更新而变化): • 禁止使用 OpenAI 服务的输出来 开发、训练或改进 任何人工智能模型。 • 禁止将 OpenAI 的输出数据用于创建 竞争性 AI 服务。 此外,“Intellectual Property”(知识产权) 和 “Use of Content”(内容使用) 部分可能也会涉及 OpenAI 对其生成内容的使用限制。 要获取最新的具体条款,可以直接访问 OpenAI 的 Terms of Use 页面。
r
randomspot
24 楼
AI领域使用数据训练模型, copyright目前是棘手的问题 OpenAI / Microsoft目前都被诉讼, 使用他人的数据为自己盈利; 有很多潜在的问题尚需法律解决, 比如, 使用他人数据训练出来的结果, 本身也成了数据。 使用权怎么定义。
一支鞋飞了
25 楼
只要你比他先进就一定有问题,其实就这样了,就跟晚年的爱迪生四处为专利打官司一样,旧这么回事儿吧
r
randomspot
26 楼
很有可能, 闭源模型发展道路会越走越窄, 这对人工智能的发展, 是很有利的
b
bluetag
27 楼
DS在对话时多次声称自己是GPT,来自Open AI,网上到处都是截图,这个很难抵赖了,大模型的成本本来主要就是数据和训练,不是源代码,DS这样搞成本低一点也不奇怪,虽然实际成本很可能还是比他们公布的高很多,但Open AI到时候很依照他们公布的成本来计算损失,DS肯定惨到有苦说不出。
蓝天大地
28 楼
傻逼五毛,中国当然可以调查ChatGPT里是否有来自中国的中文数据!问题是,他们之间签了协议吗? 你偷还偷出理由了? ------------------------------------------------- 令胡冲 发表评论于 2025-01-29 09:28:34 扯淡。OpenAI数据百分之百来自他人。哪家给过它授权?怎么就从良了,摇身一变,自封数据贞洁检查员了? 微软调查?中国可以调查ChatGPT里是否有来自中国的中文数据!
蓝天大地
29 楼
这不就是拿着我幸幸苦苦做出来的3D地球模型,然后在澳洲上面多加点森林,让整个球变得更好看一些吗?没有老子的球,你能做出这个让澳洲更绿的球吗?(哈哈哈,怎么觉得这么拗口) 啊哈哈哈哈哈哈哈。
r
randomspot
30 楼
法律上这个问题需要解决 使用未经他人正式授权使用的数据训练出来的结果, 本身也成了数据, 这样的结果数据, 是否可以受到法律的保护, 即使自己已经声明不允许别人使用自己的训练结果。 有意思 我都推测是, 未来的开源模型是大势所趋
g
groogle
31 楼
就知道有后续 若想人不知 除非己莫为
b
bluetag
32 楼
DS偷的可不是网上的原始数据,而是structured数据,OpenAI处理过带标注的训练数据, 不要刻意混淆。
泥川
33 楼
Steve Jobs说,good artists copy, great artists steal。当年苹果得以成功的图形界面,鼠标都是借鉴他人,不是自己原创。 任何人使用AI,都是喂给AI问题,然后用AI给出答案。deepseek所做的也不过如此,不过是批量的,也付了该付的钱,当然不是偷。如看高手下棋,学了几招,这叫学习,不叫偷。 根据输入输出,破解黑匣子,是科技界常用的方法,叫Reverse Engineering,逆向工程。deepseek确实用了逆向工程方法。我可以用你的,你也可以用我的,公平合理。 当然这就是AI模型不可能垄断的原因,因为你必须让人用你的输出。不管出什么新模型,别人能逆向工程把你学个89不离十。
w
worley
34 楼
偷就是偷,中国人还偷得理直气壮。 OpenAI在Term of Service 明确禁止了这种行为。 如果允许偷数据,以后谁还会雇佣大量数据工程师去整理数据和答案?谁还会去购买数据和答案?大家都去偷其它人的数据免费用
b
bluetag
35 楼
楼下太扯了,使用OpenAI 的接口,是白纸黑字签了协议的,明确说不能用来做竞争用途,否则就是偷,DS官司吃定了。
河西海龟
36 楼
B小偷偷了A小偷偷来的东西。A小偷ba jin
蟹粉小笼包
37 楼
网上那些问DSwhat model are you回答是chatgpt的截图大概率是PS的,狗粮们集体高潮了,呵呵。。。
蟹粉小笼包
38 楼
今天英伟达股票目前为止跌了接近6%了,狗粮们还看不出来问题么。。。
阿宽
39 楼
很好,继续卡脖子,从当初原子弹、氢弹,空间站到后来的航母、5G、GPS,美国人就是不长记性,如果不卡脖子,中国也许成不了世界第一,如果卡脖子,无论卡啥,中国都必将成为世界第一,因为没有一个公司的产品可以和举国体制抗衡。
5
5mslj
40 楼
让,子弹,再,飞,一会儿 五毛们
河西海龟
41 楼
故事是:B小偷偷了A小偷偷的东西,A小偷大喊抓贼,然后A小偷他爸C大偷正展开调查。
T
TXZS
42 楼
你的API不正是你提供的服务吗?你抱怨什么? 再说了,如果真是你的数据,别人的结果比你的好,你不觉得丢人吗? 天天撒泼耍赖,什么时候才能长大变成正常人啊?!
荒野猎人
43 楼
投资仅仅500万?两个月完成训练?骗三岁小孩?
T
TitaniumAtlas
44 楼
泄粪小脓包不懂股市行情,AI股本来就被市场认为处于虚高,大量做空机构等待机会而已,随着ds偷窃的事实进一步水落石出大家就会明白nvda的硬件还是必需品。
T
TitaniumAtlas
45 楼
看看这个巨婴,连同意了的协议都当个p,洗脚婆给你提供洗脚服务也必须给你提供打飞机服务吗? TXZS 发表评论于 2025-01-29 10:53:25 你的API不正是你提供的服务吗?你抱怨什么? 再说了,如果真是你的数据,别人的结果比你的好,你不觉得丢人吗? 天天撒泼耍赖,什么时候才能长大变成正常人啊?!
蓝天大地
46 楼
哈哈哈哈哈哈,五毛们为自己偷出了个‘遥遥领先’感到无比的自豪。
G
GoldenTimes
47 楼
API是提供使用,不是让你去窃取数据的
D
DANIU_S
48 楼
只要不同于商业用途,别收费,别上市。deepseek is safe.
硅谷工匠
49 楼
有意思,可能是华尔街shorter整个做的局。人家钱已经赚完了。可能这个所谓中国公司就是美国的。
s
speedingticket
50 楼
令胡冲 发表评论于 2025-01-29 09:28:34 扯淡。OpenAI数据百分之百来自他人。哪家给过它授权?怎么就从良了,摇身一变,自封数据贞洁检查员了? 微软调查?中国可以调查ChatGPT里是否有来自中国的中文数据! ++++++ 说的对。 现在阿里巴巴也做出了同样水平的东西,只能说中国人有足够的聪明才智做出非常优秀的东西。 就像电动车一样,外国人先做出来,但是,中国人能够让它很快低成本地快速普及使用
硅谷工匠
51 楼
所有技术就是一层窗户纸。懂行的一看就懂。剩下就是律师的工作了。即使芝加哥1893世界博览会上的灯泡也不是爱迪生公司的而是西屋的。中国队能打到季后赛,对美国队只有好处。起码印度MBA每天都要说China.
c
chinesegod3
52 楼
不管怎么说,对于我这样的不想付费chatgpt o1的个人来说,用用还是挺好的。还可以下载本地。
R
Redcliff
53 楼
网上有一个漫画诠释了一切:OpenAI在池塘钓鱼放在鱼盆里,DeepSeek在那个鱼盆里钓鱼。
c
chinesegod3
54 楼
DeepSeek只要不说数据来源,OpenAI也调查不来啥。被微软这么一搞,国外的企业不敢用了, 但是在国内用绝对没问题的,国内至少需要两三家头部大模型公司。
会当凌绝顶1
55 楼
Redcliff 发表评论于 2025-01-29 11:46:47 网上有一个漫画诠释了一切:OpenAI在池塘钓鱼放在鱼盆里,DeepSeek在那个鱼盆里钓鱼。
菲斯普的里尔克
56 楼
考虑到DeepSeek可能对意大利数百万用户的数据构成较高风险,已要求相关公司及其附属企业确认所收集的个人数据类型、数据来源、使用目的、数据处理的法律依据,以及这些数据是否存储在中国的服务器上。 此外,该机构还要求企业说明用于训练人工智能系统的信息类型,并在涉及通过网络爬取(web scraping)方式收集个人数据的情况下,澄清已注册用户和未注册用户是否以及如何被告知其数据的处理方式。 相关企业须在20天内向监管机构提供上述信息。 该机构主席帕斯夸莱·斯坦齐奥内(Pasquale Stanzione)解释称,监管机构已要求DeepSeek提供“关于源代码的信息,即应用程序的来源”。此外,监管机构还询问该公司是否采取了措施避免算法偏见,是否为未成年人访问提供了相应的保护工具,以及该应用程序是否避免在例如选举等情况下干涉个人的基本权利。 斯坦齐奥内补充道,对DeepSeek的担忧“与我们两年前对ChatGPT/OpenAI的担忧相同”。此前,意大利隐私监管机构曾对OpenAI展开调查,并最终裁定其违反个人数据处理规定,对其处以1500万欧元的罚款。
s
supernova13
57 楼
AI感兴趣的是知识和逻辑,不是个人隐私,意大利人胡扯八道。
s
supernova13
58 楼
训练所有模型的数据来自主要互联网,人类的知识也就这么些,已经被模型学完了。还保密个鬼!
x
xyz18
59 楼
弯道超车的名声不是白给的
破棉袄
60 楼
隐含的完整故事应该是这样的:一个中国大厂(可能是抖音),订阅企业版的ChatGPT,用其API没日没夜的问问题,记录答案,用这些问题和答案训练“自己的”大模型。去年这种方法被OpenAI发现了,终结了其使用ChatGPT账户。大厂自己不敢发表如此搞出来的大模型,害怕吃官司,被索赔,但是抱在怀里又心有不甘,就找个十分失败的小公司(幻方,开发AI炒股软件,让他的客户亏掉裤子)当壳,去发表这个模型,看看外界的反应。如果反应好,以后自己就放手干。如果招致诉讼,制裁,索赔等糟心事,就由幻方这个破公司扛着,大不了倒闭关门。
破棉袄
61 楼
隐含的完整故事应该是这样的:一个中国大厂(可能是抖音),订阅企业版的ChatGPT,用其API没日没夜的问问题,记录答案,用这些问题和答案训练“自己的”大模型。去年这种方法被OpenAI发现了,终结了其使用ChatGPT账户,大厂就转战微软,从微软那里继续吊用ChatGPT API。大厂自己不敢发表如此搞出来的大模型,害怕吃官司,被索赔,但是抱在怀里又心有不甘,就找个十分失败的小公司(幻方,开发AI炒股软件,让他的客户亏掉裤子)当壳,去发表这个模型,看看外界的反应。如果反应好,以后自己就放手干。如果招致诉讼,制裁,索赔等糟心事,就由幻方这个破公司扛着,大不了倒闭关门。
会当凌绝顶1
62 楼
最新:突发!Deepseek已经从意大利的苹果商店和谷歌商店下架
北美小镇
63 楼
一个常识:Westinghouse和GE都是从同一家爱迪生的公司分拆的,所以那个灯泡还是爱迪生的。 硅谷工匠 发表评论于 2025-01-29 11:37:05所有技术就是一层窗户纸。懂行的一看就懂。剩下就是律师的工作了。即使芝加哥1893世界博览会上的灯泡也不是爱迪生公司的而是西屋的。中国队能打到季后赛,对美国队只有好处。起码印度MBA每天都要说China.
B
Bluelight涨停突击队
64 楼
木秀于林,“疯"必摧之?
硅谷工匠
65 楼
西屋是西屋自己建的。GE是爱迪生拿摩根的钱造的但是爱迪生被出局。这个历史很详细。
泥川
66 楼
有样学样,大家正在向deepseek学习。 使用 DeepSeek-R1 生成的样本对 Llama 3.3 70B 进行微调的版本,现已在 GroqCloud™ 上线,用于即时推理,已为该模型启用了完整的 128k上下文窗口 。您可以在console.groq.com上试用。
泥川
67 楼
Llama 3.3 70B 是一款Meta(FaceBook)开发的AI大模型。
泥川
68 楼
DeepSeek R1 是 Deepseek 套件中更大、更智能的模型,它被提炼到 Llama 70B 架构中,基于基准和人工评估,它比原来的 Llama 70B 更智能,并且在需要数学和事实精度的任务上表现尤为出色。
硅谷工匠
69 楼
现在应该很像村村大炼钢铁的时代,每个村都互相藏着掖着。其实最后都是扯淡。只有律师最忙。
真环
70 楼
DeepSeek可以承认成本比openAI 高1/30. 哈哈