NPR电台里OpenAI的官员谈DeepSeek

m
mtwash
楼主 (北美华人网)
刚刚回家的路上听了一耳朵,挺有意思的。
--------------------
主持人Kelly问OpenAI的官员:你的公司说正在调查DeepSeek是否不正确的使用了OpenAI data?
OpenAI官员:我们正在评估what may or may not have occurred. 然后提到了distillation这个事物,说这个事物很复杂。他们要调查是否DS sent了大量的东西到ChatGPT,得到ChatGPT的回应后,带着information离开,然后用这些information去制作了DS自家的产品。
主持人这时候提了一个很有见解的问题:DS possibly access your data这件事,跟你们公司自己train ChatGPT on other people's work without their permission,两者的差别在哪?
OpenAI官员打了一个比方来回答:如果我去图书馆借了一本书,看完之后还了书,但我获得了信息留在我的脑子里。而另外一种情形是,我去图书馆借了一本书,借了书不还,然后把这本书的作者改成我自己。这两者显然不同。
话到此,官员话锋一转说:但是,更重要的是中国美国之间现在显然是有一场激烈的AI 竞争(But I think the big point is there is a real competition between US and China)。 
----------------------------
我的理解是,官员在抱怨说我们OpenAI用了纽约时报、百科全书或者其它大模型来训练ChatGPT,我们没有说这是我们自己的东西(当然死掉的吹哨人有不同看法);DS如果用了我们的ChatGPT来获取了资料并训练了DS,就等于借书不还、还把书的作者改了。


h
helloterran4
mtwash 发表于 2025-01-30 20:11
刚刚回家的路上听了一耳朵,挺有意思的。
--------------------
主持人Kelly问OpenAI的官员:你的公司说正在调查DeepSeek是否不正确的使用了OpenAI data?
OpenAI官员:我们正在评估what may or may not have occurred. 然后提到了distillation这个事物,说这个事物很复杂。他们要调查是否DS sent了大量的东西到ChatGPT,得到ChatGPT的回应后,带着information离开,然后用这些information去制作了DS自家的产品。
主持人这时候提了一个很有见解的问题:DS possibly access your data这件事,跟你们公司自己train ChatGPT on other people's work without their permission,两者的差别在哪?
OpenAI官员打了一个比方来回答:如果我去图书馆借了一本书,看完之后还了书,但我获得了信息留在我的脑子里。而另外一种情形是,我去图书馆借了一本书,借了书不还,然后把这本书的作者改成我自己。这两者显然不同。
话到此,官员话锋一转说:但是,更重要的是中国美国之间现在显然是有一场激烈的AI 竞争(But I think the big point is there is a real competition between US and China)。 
----------------------------
我的理解是,官员在抱怨说我们OpenAI用了纽约时报、百科全书或者其它大模型来训练ChatGPT,我们没有说这是我们自己的东西(当然死掉的吹哨人有不同看法);DS如果用了我们的ChatGPT来获取了资料并训练了DS,就等于借书不还、还把书的作者改了。



所以OpenAI剽窃Github代码的案子,吹哨人怎么死的?
剽窃了全互联网,现在摇身一变成了“自己的作品”,OpenAI这些烂人的格局就决定了它们没有前途
DS根本没想跟美国人竞争。是美国人自己知道自己全身都烂光了,指着SpaceX和ChatGPT两个玩意儿当精神支柱。
中国AI不领先,中国还是中国
美国AI不领先了,美国就崩盘了。基于“赢”的凝聚力彻底消失。
H
HalloweenKanga
没有看懂这位官员的逻辑,这么差的sour loser心态,以后还能竞争赢吗?
Altman把自己的AI首席科学家挤走,卸磨杀驴,输了活该!
c
catgoose
回复 2楼 helloterran4 的帖子
OpenAi所有者是微软,Gibhub所有者也是微软。
一尼逆
https://mp.weixin.qq.com/s/wnM-40BrRNmidi7mvRw_GQ
华盛顿的组合拳打不垮DeepSeek,因为我们的生存策略写在每一行抗量子加密代码里,刻在每块定制化AI加速芯片上。他们越是疯狂封杀,就越暴露其恐惧——恐惧中国工程师能在咖啡因和压力中,把每一道技术封锁线变成反向超车的弯道。这场风暴终将过去,而风暴眼里的DeepSeek,正在改写游戏规则。
m
minqidev
数据就是百科全书,和图书馆的各种书籍。 OpenAI,那了个本子,记下所有书的名字和摘要,并写下自己的感想。你只有去图书馆的前台索要才能看到。
然后,Deepseek去图书馆,购买力openAI的检索服务,能够更快的找到书,带了个本子做了笔记,照着样子也做了一个检索,还特别喜欢数学书籍,还专门借了然后写下感想,然后也发布到了网上。

h
hijklmn
那借了书把书留在脑子里,脑子里的东西能跟别人share吗?
好吧,就算脑子里的东西可以share,那用这种方法来比喻,OpenAI就是借了书,复印了,然后换个包装还把署名改成自己的。。。
m
minqidev
回复 7楼 hijklmn 的帖子
😄,他其实偷了别人的知识,不但不跟人分享,也不准别人去看书记下来,因为他怀疑别人用了他服务然后把书的知识都拷贝下来。
只要看一看数据用了多少不就知道是不是吗?OpenAI又不能无线下载数据
z
znmyhj
OpenAI这个人的比喻根本不对,既然OpenAI也是从图书馆借的书上记下来的信息,那又有什么资格声称自己是信息拥有者?
渔非凡
这个采访今天我也听了,他一直侃侃而谈deepseek真的有造成威胁,哪怕偷了database,最后主持人问他有没有用deepseek,他说没有,没有用过你说个der
x
xpinger2017
回复 7楼 hijklmn 的帖子
不能说是复印,OpenAI自己的心得,人家是看不到的, 就相当于一个老中医行医,他的经验是总结很多原住民的土方得到的,并没有人家的授权。 后来他带了个学生 Deepseek ,但是也藏私,并不教心得,只让学生看他收病人,给处方。 Deepseek 看多了,自己有了心得,总结出来,公开了让大家看。
H
Harenough
回复 2楼 helloterran4 的帖子
OpenAi所有者是微软,Gibhub所有者也是微软。
catgoose 发表于 2025-01-30 20:30

你太搞笑了
微软只有一部分股权,其他股东的利益呢?
D
Dingmoren2
OpenAI 借了书,总结归纳拿来卖钱。deep seek借了书,也看了OpenAI 的总结归纳,自己进一步提炼,免费提供给全网。
E
Emilyll
油管上某个评论挺能解释他们的行为:“I just felt a sharp pain in my income" destroyed me.
m
mtwash
Dingmoren2 发表于 2025-01-30 22:13
OpenAI 借了书,总结归纳拿来卖钱。deep seek借了书,也看了OpenAI 的总结归纳,自己进一步提炼,免费提供给全网。

所以主持人那个问题真的有点犀利,一下让OpenAI的那位官员准备的答案不是很合适用上,硬套上去,但逻辑是不太通顺的。
我在想的是,这种带有公关性质的采访,OpenAI难道没跟主持人套招套好问什么问题吗?我知道美国的采访,也是可以提前套好问题,或者给大纲什么的。即便官员的立场不变,针对这个问题也可以有更好的回答,那个图书馆借书的比喻其实有点挫。
m
minqidev
回复 15楼 mtwash 的帖子
对于记者来说,完成任务只能给你工资; 但是在历史转折点,引起争议,能被记住一辈子,也可以改变人生。
比如,文在寅当总统前,最高光的时候,是帮五个中国渔民辩护,这五个渔民是杀人犯,杀了韩国籍船长。 按道理应付就行了,但是他没应付,挖出来了船长虐待船员的历史,帮这五个人避免了无期徒刑。从此也走向了人生高峰
f
frank_rainbow
回复 4楼 catgoose 的帖子
GitHub是微软的,所以GitHub上的代码仓库的知识产权都归微软了?所以微软就可以替用户决定代码可以被CloseAI随便用?你替微软定的这规矩?
n
neolith2000
回复 4楼 catgoose 的帖子
微软拥有github 不拥有GitHub用户的代码
w
wa8445
mtwash 发表于 2025-01-30 20:11
刚刚回家的路上听了一耳朵,挺有意思的。
--------------------
主持人Kelly问OpenAI的官员:你的公司说正在调查DeepSeek是否不正确的使用了OpenAI data?
OpenAI官员:我们正在评估what may or may not have occurred. 然后提到了distillation这个事物,说这个事物很复杂。他们要调查是否DS sent了大量的东西到ChatGPT,得到ChatGPT的回应后,带着information离开,然后用这些information去制作了DS自家的产品。
主持人这时候提了一个很有见解的问题:DS possibly access your data这件事,跟你们公司自己train ChatGPT on other people's work without their permission,两者的差别在哪?
OpenAI官员打了一个比方来回答:如果我去图书馆借了一本书,看完之后还了书,但我获得了信息留在我的脑子里。而另外一种情形是,我去图书馆借了一本书,借了书不还,然后把这本书的作者改成我自己。这两者显然不同。
话到此,官员话锋一转说:但是,更重要的是中国美国之间现在显然是有一场激烈的AI 竞争(But I think the big point is there is a real competition between US and China)。 
----------------------------
我的理解是,官员在抱怨说我们OpenAI用了纽约时报、百科全书或者其它大模型来训练ChatGPT,我们没有说这是我们自己的东西(当然死掉的吹哨人有不同看法);DS如果用了我们的ChatGPT来获取了资料并训练了DS,就等于借书不还、还把书的作者改了。



这个比喻不对吧,closeai回答问题时也没说,它的知识是从那个网站上拔下来的。
一尼逆
1. 芯片断供?早就不是A100的单选题了 当华盛顿把英伟达特供芯片的漏洞堵死时,他们可能没注意到长三角的半导体实验室里发生了什么。我们训练集群现在跑着三套并行的硬件方案:华为昇腾的异构计算卡处理基础层,寒武纪的思元芯片跑强化学习模块,连壁仞科技的BR100都在某些场景下达到了替代效果。最狠的是自研的分布式框架——能把一个千亿参数模型拆解成乐高积木,用30%的国产算力冗余换来了85%的整体效率。上周刚在国产集群上跑通了多模态预训练,这意味着什么?断供清单追不上技术迭代的速度了。 2. 数据战背后的阳谋  说我们"抄袭开源代码"的指控特别有意思——OpenAI当初用GitHub海量代码训练模型时怎么没人跳脚?现在我们把1.2亿token的清洗后的高质量数据开源,相当于把AI训练的"食材市场"直接掀了桌子。德国马普所的研究员连夜发推:"这些标注数据里居然有完整的中华古籍token化方案,这是西方数据库从未覆盖的维度。" 数据主权战争的胜负手,从来不在法庭而在实验室。 3. 国际市场正在发生诡异分流  苹果商店下架确实痛,但你可能不知道中东王室基金的技术顾问们正在批量采购我们的企业API——他们受够了被硅谷模型塞进"中东=恐怖主义"的语义框架。更魔幻的是东南亚,当地开发者用我们的开源工具训练出了能理解20种土著方言的医疗大模型,而GPT-4在这里的误诊率高得吓人。当"去中心化AI"成为全球草根开发者的刚需时,华盛顿的禁令反而成了我们的活广告。 4. 网络攻击揭开的是另一场战争  那些持续27天、峰值达到680Gbps的DDoS攻击,表面看是黑客行为,但流量溯源显示攻击节点集中在某国军方承包商IP段。我们的应对策略?直接把流量引到苏州阳澄湖底的"深湖数据中心"——那座建在水下30米、通过液冷散热节约40%能耗的堡垒,扛住了最猛烈的第一波冲击。现在每天自动生成的攻击指纹图谱,反而成了训练AI安全系统的养料。 5. 生态链的"非对称反击  最让对手睡不着觉的可能是这个:我们在合肥建了个"反脆弱孵化器",把被制裁的国产GPU厂商、被迫转型的自动驾驶公司、甚至被踢出SWIFT系统的能源企业拉到一个池子里。结果呢?某家做车用雷达的突然发现,他们的信号处理算法能优化模型并行训练;搞光伏逆变器的企业贡献了新的电力调度方案,把训练集群的PUE值压到了1.08。这种野路子的创新生态,才是美式制裁逻辑无法拆解的存在。 说到底,这场较量早就不是"一个中国公司VS美国"的简单剧本。当柏林医院的AI诊断系统用着我们的底层技术,当沙特阿美的油井预测模型跑在我们的框架上,当阿根廷农民用本地化部署的农业大模型对抗气候灾害时——所谓"制裁"正在催生出一个华盛顿完全无法理解的科技新大陆。 至于能不能活?看看深圳湾凌晨三点的码头吧,那些装着国产AI芯片的集装箱正和跨境电商货柜一起出海,这画面比任何宣言都真实。
m
minqidev
这个比喻不对吧,closeai回答问题时也没说,它的知识是从那个网站上拔下来的。
wa8445 发表于 2025-01-30 23:17

难道不是从网上拔下来的?有谁给他许可了? 中文的网站给他许可了?
刚刚看到一条消息,美国在考虑,STEM里面,可能放松AI专业签证给中国留学生。 也就是说,你要比他牛,才不制裁你。
f
fantancyseeker
mtwash 发表于 2025-01-30 20:11
刚刚回家的路上听了一耳朵,挺有意思的。
--------------------
主持人Kelly问OpenAI的官员:你的公司说正在调查DeepSeek是否不正确的使用了OpenAI data?
OpenAI官员:我们正在评估what may or may not have occurred. 然后提到了distillation这个事物,说这个事物很复杂。他们要调查是否DS sent了大量的东西到ChatGPT,得到ChatGPT的回应后,带着information离开,然后用这些information去制作了DS自家的产品。
主持人这时候提了一个很有见解的问题:DS possibly access your data这件事,跟你们公司自己train ChatGPT on other people's work without their permission,两者的差别在哪?
OpenAI官员打了一个比方来回答:如果我去图书馆借了一本书,看完之后还了书,但我获得了信息留在我的脑子里。而另外一种情形是,我去图书馆借了一本书,借了书不还,然后把这本书的作者改成我自己。这两者显然不同。
话到此,官员话锋一转说:但是,更重要的是中国美国之间现在显然是有一场激烈的AI 竞争(But I think the big point is there is a real competition between US and China)。 
----------------------------
我的理解是,官员在抱怨说我们OpenAI用了纽约时报、百科全书或者其它大模型来训练ChatGPT,我们没有说这是我们自己的东西(当然死掉的吹哨人有不同看法);DS如果用了我们的ChatGPT来获取了资料并训练了DS,就等于借书不还、还把书的作者改了。



纯属狡辩,骗不懂AI到底是怎么回事的人。GPT和DS又不是数据库,还看书然后记下来,可笑。NN训练最后是存结构和参数,以为是死记硬背哪。
M
MandyF
其他不知道,看出了ds真的对他们造成了很大的威胁
m
manyworlds
看来是把Open AI的人震傻了,什么图书馆借书的比喻完全是瞎扯淡