据传Breaking Openai要起诉DeepSeek抄袭

大约一个月

确实是抄的啊一个月前问deepseek 他直接说自己是chatgpt🤣

大约一个月

DeepSeek 戳到那些人肺管子了

大约一个月

baxiangxiang 发表于 2025-01-29 05:21
Openai正式起诉DeepSeek抄袭蒸馏技术就是直接用现成的openAI预训练数据进行提纯，算力成本当然非常低。你问deepseek你是谁？deepseek会说“我是catgpt”

linky?

i机器人

大约一个月

如果真的抄袭那就真的该说对吧。。。

shuijiawangshi

大约一个月

目前测试，中文写作方面，DS甩Openai一条街。

大约一个月

回复 6楼 gocaigo8421 的帖子
https://www.the-independent.com/tech/deepseek-ai-china-r1-nvidia-stock-price-trump-live-updates-b2688097.html

大约一个月

不算抄袭吧，breach terms and conditions 有可能，关键是openapi有没有真是说明其他人不能用openai的IO用来训练自己的。

junjunzi

大约一个月

baxiangxiang 发表于 2025-01-29 05:21
Openai正式起诉DeepSeek抄袭蒸馏技术就是直接用现成的openAI预训练数据进行提纯，算力成本当然非常低。你问deepseek你是谁？deepseek会说“我是catgpt”

连chatgpt都拼不对，就来当水军了

人

人生在线

大约一个月

junjunzi 发表于 2025-01-29 05:51
连chatgpt都拼不对，就来当水军了

你是来搞笑的吗？这不是山寨的精髓吗？

大约一个月

五毛你好！

金

金鼠座

大约一个月

open souce vs black box so called Openxx

大约一个月

回复 10楼 gocaigo8421 的帖子
蒸馏是A1条件下的新技术，还没有被纳入知识产权保护，如果司法部门介入，将蒸馏技术定义为偷窃，那就完了。

sensanmu

大约一个月

可以理解，毕竟某些人的主子损失了1万亿美刀，换谁谁都会急眼

大约一个月

两个模型的知识库都是到2023年10月的，必定是有一方直接“抄”了另一方。

大约一个月

金鼠座发表于 2025-01-29 05:55
open souce vs black box so called Openxx

oh well but at least openai didn't call itself deepseek, right?

大约一个月

回复 10楼 gocaigo8421 的帖子
蒸馏是A1条件下的新技术，还没有被纳入知识产权保护，如果司法部门介入，将蒸馏技术定义为偷窃，那就完了。
baxiangxiang 发表于 2025-01-29 06:00

I am not saying it is. I think the best they can claim is the usage violates its terms and conditions. but who reads T& C nowadays? LOL. also, I kinda don''t believe they don''t throttle the API calls.

大约一个月

忙完TikToK，忙小红书，再忙DeepSeek。中国人让美国人忙起来

大约一个月

回复 16楼的帖

风

风起洛阳

大约一个月

这下deepseek更火了！其实挺为国内这些年的发展变化骄傲的。从TikTok到小红书到deepseek，公司同事对中国的讨论就没断。
再回头看看天天刷手机打游戏的娃我心想你拿啥跟国内卷出来的孩子拼啊

人

人生在线

大约一个月

“ChatGPT 制造商和 OpenAI 最大的投资者微软正在联合调查 DeepSeek 是否以未经授权的方式获取了 OpenAI 的技术。消息人士告诉该刊物，去年，微软的安全研究人员观察到他们认为与 DeepSeek 有联系的人员使用 OpenAI 的应用程序编程接口（API）获取了大量数据，开发人员需要付费才能使用这项服务。” 微软坐不住了，为了挺小弟撸袖子下场开搞了。

大约一个月

sensanmu 发表于 2025-01-29 06:01
可以理解，毕竟某些人的主子损失了1万亿美刀，换谁谁都会急眼

都涨回来一半了，你能等两天再说吗？幼稚！

大约一个月

baxiangxiang 发表于 2025-01-29 05:21
Openai正式起诉DeepSeek抄袭蒸馏技术就是直接用现成的openAI预训练数据进行提纯，算力成本当然非常低。你问deepseek你是谁？deepseek会说“我是catgpt”

可是catgpt并不是chatgpt 啊？😉

Colud_F

大约一个月

提取数据算什么抄袭，
openai的中文数据来自中国大陆，比如百度的，
算抄袭百度吗？

clam

大约一个月

无论如何说明了紧跟美国科技有好果子吃，但为啥华人大妈日日夜夜地黑美国教育和公司？

i机器人

大约一个月

风起洛阳发表于 2025-01-29 06:07
这下deepseek更火了！其实挺为国内这些年的发展变化骄傲的。从TikTok到小红书到deepseek，公司同事对中国的讨论就没断。
再回头看看天天刷手机打游戏的娃我心想你拿啥跟国内卷出来的孩子拼啊

完全没有错可是你想要你的娃快乐童年还是去衡水呢

大约一个月

人生在线发表于 2025-01-29 06:11
“ChatGPT 制造商和 OpenAI 最大的投资者微软正在联合调查 DeepSeek 是否以未经授权的方式获取了 OpenAI 的技术。消息人士告诉该刊物，去年，微软的安全研究人员观察到他们认为与 DeepSeek 有联系的人员使用 OpenAI 的应用程序编程接口（API）获取了大量数据，开发人员需要付费才能使用这项服务。” 微软坐不住了，为了挺小弟撸袖子下场开搞了。

那么ds的开发人员付费了吗？好奇如果答案是肯定的，那就不存在抄袭的问题了吧？

dpgx

大约一个月

如果提取数据那就是抄答案了，下作的中国公司！

大约一个月

昨天openai还说近期要做一些技术革新来超越，原来是憋出这么个大招啊😂

mtwash

大约一个月

Colud_F 发表于 2025-01-29 06:26
提取数据算什么抄袭，
openai的中文数据来自中国大陆，比如百度的，
算抄袭百度吗？

首先，OpenAI吹哨人是为什么死的？揭发OpenAI侵犯版权，使用未授权资料。未授权的资料使用的最大罪犯是OpenAI，而不是世界上任何一个其它公司。
其次，Google的Gemini因为用了百度的资料训练，也曾自称自己是文心一言。类似的例子还不少，比如台湾的中央研究院的AI实验室的chat bot，也曾自称自己是上海人工智能实验室的作品。OpenAI先说清楚它自己的资料是从哪里来的，再来声索它的版权吧。

大约一个月

dpgx 发表于 2025-01-29 06:35
如果提取数据那就是抄答案了，下作的中国公司！

不争气的中国公司，又一次做实了抄袭。啥时能创新出别人没有的东西？

大约一个月

以后会不会有一天，连用英文都要被起诉？

大约一个月

回复 32楼 mtwash 的帖子
强盗逻辑就是我抢不算抢，你抢是强盗

wdong

大约一个月

baxiangxiang 发表于 2025-01-29 05:21
Openai正式起诉DeepSeek抄袭蒸馏技术就是直接用现成的openAI预训练数据进行提纯，算力成本当然非常低。你问deepseek你是谁？deepseek会说“我是catgpt”

Oai技术到顶了，接下来就该美国政府上场了。

Supersinger

大约一个月

希望不是真的，否则历害国脸丢大了。

大约一个月

baxiangxiang 发表于 2025-01-29 06:00
回复 10楼 gocaigo8421 的帖子
蒸馏是A1条件下的新技术，还没有被纳入知识产权保护，如果司法部门介入，将蒸馏技术定义为偷窃，那就完了。

还有这样回朔的？

ynewynew

大约一个月

shuijiawangshi 发表于 2025-01-29 05:44
目前测试，中文写作方面，DS甩Openai一条街。

并没有吧。实测下来，写阳春白雪和下里巴人的确非常厉害，但是让它写介于两者之间的试试

GRACECHEUNG

大约一个月

用人家数据当然应该付钱了，估计deepseek就偷摸的用了

ca563

大约一个月

baxiangxiang 发表于 2025-01-29 05:37
确实是抄的啊一个月前问deepseek 他直接说自己是chatgpt🤣

我这几天听了不少正是访谈和科普视频，每个主持人都问了这个问题，都被专家brush away了。说人家paper里已经写了，这个practice在AI training里非常常见，各家都这么做。再说DeepSeek是开源的，又没有用来盈利，有什么可以告的？

头

头文字W

大约一个月

junjunzi 发表于 2025-01-29 05:51
连chatgpt都拼不对，就来当水军了

你没搞懂什么叫cat吧，LOL

大约一个月

回复 37楼的帖子
和丢脸没关系，就相当于OpenAI用了百度的数据一个道理。
还有，搜索引擎有数据吗？不也是抓取？难道那些数据是谷歌的，百度的？

GRACECHEUNG

大约一个月

应该出台立法：蒸馏人家数据不合法。和学生时代偷看人家答案有什么区别。可人家是花真金白银搭的模型和买的数据，你直接超答案，当然快和便宜了

Geofan

大约一个月

感觉open Ai没了Llya以后就这样了，Sam只能做生意。Sam以后忙着呢，赶快还要告阿里，接着是小米，因为中国大模型要井喷了

life99f

大约一个月

这些人是血亏了多少钱?

dodgers

大约一个月

回复 41楼 ca563 的帖子
普通人不知道，贼喊捉贼，只要目的是抹黑，让普通人怀疑，不用。就达到目的了。
大家看所有事情的网上评论就知道：
1。人有很多偏见 2。大多数人逻辑思维不强，尤其在自己不懂的领域，是非常愚蠢的

Wangwang13.5

大约一个月

回复 1楼 baxiangxiang 的帖子
那么多人恨不得抄，咋没抄出来。技不如人，就开始骂娘。low

大约一个月

Colud_F 发表于 2025-01-29 06:26
提取数据算什么抄袭，
openai的中文数据来自中国大陆，比如百度的，
算抄袭百度吗？

我觉得还是不一样的，用数据怎么也不算抄，应为数据就是一项单向的输入/input。
openai 指控的是 deepseek 用了openai处理后的输出/output/response

AlwaysHopeful

大约一个月

GRACECHEUNG 发表于 2025-01-29 06:56
应该出台立法：蒸馏人家数据不合法。和学生时代偷看人家答案有什么区别。可人家是花真金白银搭的模型和买的数据，你直接超答案，当然快和便宜了

你看看前面的人的答案和例子，如果用其他LLM generate的synthetic data不合法，那犯法的就不是Deepseek一家，每一家都犯了这个法。最基本的说，最开始从互联网上提取数据就不合法

AlwaysHopeful

大约一个月

dodgers 发表于 2025-01-29 06:59
回复 41楼 ca563 的帖子
普通人不知道，贼喊捉贼，只要目的是抹黑，让普通人怀疑，不用。就达到目的了。
大家看所有事情的网上评论就知道：
1。人有很多偏见 2。大多数人逻辑思维不强，尤其在自己不懂的领域，是非常愚蠢的

生意人都会现行的。

mtwash

大约一个月

应该出台立法：蒸馏人家数据不合法。和学生时代偷看人家答案有什么区别。可人家是花真金白银搭的模型和买的数据，你直接超答案，当然快和便宜了
GRACECHEUNG 发表于 2025-01-29 06:56

问题来了，你说“人家是花真金白银搭的模型和买的数据”，可OpenAI的数据自己涉嫌盗用，要不OpenAI吹哨人在吹什么哨呢？
倒是这里面比较明确的是，总费用那就不止600万美元，有大幅降低费用，但不是到600万美元这么剧烈和夸张。
可以说局势到现在这个地步，可以说是happy ending了，英伟达和半导体厂商、各大AI巨头公司、各路跃跃欲试等待上场的小公司，以及DeepSeek自己，都开心了。

clam

大约一个月

是时候拿下这些开源产品了。

Dingmoren2

大约一个月

全世界人民又可以看美国撒泼耍赖表演了，不过这样的表演基本天天有，大家都审美疲劳了。

cathytree

大约一个月

同样一道小学5年级奥数的题目，给到chatgpt都做不对，纠正它，死鸭子嘴硬，写了一大篇对不起还是做不对。DS第一次就做对了。

magnoliaceae

大约一个月

Altman胃酸过多被送医急救了吧

sydneyxp

大约一个月

第一openai api term of use明确说是不能拿来训练竞争模型的。第二openai api 根本对中国IP 不开放，应该是VPN翻墙之类的。

magnoliaceae

大约一个月

mtwash 发表于 2025-01-29 06:37
首先，OpenAI吹哨人是为什么死的？揭发OpenAI侵犯版权，使用未授权资料。未授权的资料使用的最大罪犯是OpenAI，而不是世界上任何一个其它公司。
其次，Google的Gemini因为用了百度的资料训练，也曾自称自己是文心一言。类似的例子还不少，比如台湾的中央研究院的AI实验室的chat bot，也曾自称自己是上海人工智能实验室的作品。OpenAI先说清楚它自己的资料是从哪里来的，再来声索它的版权吧。

Altman为了抄袭不惜杀人灭口，是谁侵犯演员斯嘉丽约翰逊声音版权的？下作的垃圾，贼喊捉贼

大约一个月

西北飘雪发表于 2025-01-29 06:40
以后会不会有一天，连用英文都要被起诉？

真有可能，会说26个英文字母是祖上传下的，凡是有人用字母，必受其后代长臂所管辖+制裁😂。

Wangwang13.5

大约一个月

Meta 现在不是建立4个War rooms 分析DS 算法，算不算偷窃？

大约一个月

minqidev 发表于 2025-01-29 06:55
回复 37楼的帖子
和丢脸没关系，就相当于OpenAI用了百度的数据一个道理。
还有，搜索引擎有数据吗？不也是抓取？难道那些数据是谷歌的，百度的？

两回事。
A + B = C
A 是百度的数据，B是谷歌的数据，openai api 输出是 C, 我估计openai是指控deepseek用了C. 任何人用A和B都是合法的。问题是用C是不是合法。

happymc

大约一个月

是的，就是把各家已经开源的预训练模型拿来加强一下，当然只需要很少的算力了。AI模型最难的就是从零训练初始模型。根本不是什么突破。就像当初鸿蒙套壳安卓，红芯浏览器套壳chrome

coalpilerd

大约一个月

gocaigo8421 发表于 2025-01-29 07:35
两回事。
A + B = C
A 是百度的数据，B是谷歌的数据，openai api 输出是 C, 我估计openai是指控deepseek用了C. 任何人用A和B都是合法的。问题是用C是不是合法。

openai自己还不是从媒体抓了文章来训练模型的。别人用了他家的输出他要告，那他家用了别家记者费工费力写出来的文字该不该被告？上次那个被自杀的印二代吹哨人不就是戳了这层窗户纸么，认真打起版权官司，他家根本不够赔的。

人

人生在线

大约一个月

挺好的以后AI遍地开花，中小企业自己搞自己的，越用越喜欢。这个AI让那个AI失业也是经常的事情。大家不用怕AI起来没工作，可能工作机会更多都不一定。

大约一个月

回复 61楼的帖子
你不懂就不要猜了。因为你要准备原始数据，就像scale AI是人工打标签，Deepseek必须通过网络的方式，去查自己能查到的所有数据
假设，你可以从chat gpt知道，费不垃圾数（我自编的）是。 1 3 5 7
Deepseek用这个去产生一种思维，找出公式，其实你可以从他们源码看出他们训练方法，他们源码大家都在分析。 1 + 2*i

为什么用chat gpt，是因为chat gpt是目前最能理解自然语言的平台。你去google，准备这个费不垃圾，并不一定那么准确

大约一个月

挺好的以后AI遍地开花，中小企业自己搞自己的，越用越喜欢。这个AI让那个AI失业也是经常的事情。大家不用怕AI起来没工作，可能工作机会更多都不一定。
人生在线发表于 2025-01-29 07:41

有道理，大家都告来告去的。感觉律师这个行当绝对不会被替代，都要忙死了😂

小

小橙瓶

大约一个月

baxiangxiang 发表于 2025-01-29 05:21
Openai正式起诉DeepSeek抄袭蒸馏技术就是直接用现成的openAI预训练数据进行提纯，算力成本当然非常低。你问deepseek你是谁？deepseek会说“我是catgpt”

楼主人才，把开源的代码贴上来一端呗看哪里抄了？
OpenAI讲的故事是，AI是我们的，谁拥有更多GPU谁说了算 DS讲的是，AI是全人类的，每个人都可以搞
段位不一样。讲抄袭跟投诉刹车失灵一样幼稚。

大约一个月

cathytree 发表于 2025-01-29 07:22
同样一道小学5年级奥数的题目，给到chatgpt都做不对，纠正它，死鸭子嘴硬，写了一大篇对不起还是做不对。DS第一次就做对了。

这很好解释的，deepseek 这么多奥数得奖的，奥数题目很可能都训练过了，外加deepseek有很多其他的优化，但这不是这条线的中心问题啊。

transient

大约一个月

magnoliaceae 发表于 2025-01-29 07:26
Altman胃酸过多被送医急救了吧

😂😂😂

大约一个月

回复 68楼 gocaigo8421 的帖子
那你重点是什么？这个训练的重点就是学习能力。数据源都不一样，抄什么？

大约一个月

coalpilerd 发表于 2025-01-29 07:40
openai自己还不是从媒体抓了文章来训练模型的。别人用了他家的输出他要告，那他家用了别家记者费工费力写出来的文字该不该被告？上次那个被自杀的印二代吹哨人不就是戳了这层窗户纸么，认真打起版权官司，他家根本不够赔的。

那是我上面讲到的A有特殊的版权吧？

laqyx6

大约一个月

我的问题是他要在哪里告？

znmyhj

大约一个月

要不也查一下OpenAI中文数据从哪里来的吧

yimiyangguang

大约一个月

人生在线发表于 2025-01-29 07:41
挺好的以后AI遍地开花，中小企业自己搞自己的，越用越喜欢。这个AI让那个AI失业也是经常的事情。大家不用怕AI起来没工作，可能工作机会更多都不一定。

但是从阿里的反应来看，它搅合的更多是国内企业。本来大家都憋着赚钱的，它来把桌子掀了，以取巧的手段。当然抛开合法不合法，这个概念值不值得借鉴还要看。

大约一个月

回复 72楼的帖子
在美国，告得Deepseek威胁美国安全就行就和大蒜一样

pangapang

大约一个月

字节就被chatgpt 禁过api 吧，当时还阴阳过字节想蒸馏应该没机会到蒸馏级别的call api 就被禁了

大约一个月

dodgers 发表于 2025-01-29 06:59
回复 41楼 ca563 的帖子
普通人不知道，贼喊捉贼，只要目的是抹黑，让普通人怀疑，不用。就达到目的了。
大家看所有事情的网上评论就知道：
1。人有很多偏见 2。大多数人逻辑思维不强，尤其在自己不懂的领域，是非常愚蠢的

确实，干不过就抹黑。有些人确实是在自己不懂非领域里还要跳出来充专家。

大约一个月

我的问题是他要在哪里告？
laqyx6 发表于 2025-01-29 07:49

谁也不知道。猜测是违反API terms & conditions.

transient

大约一个月

楼主给个source 吧，我Google 了一下也没看见这新闻说“正式起诉”

junjunzi

大约一个月

transient 发表于 2025-01-29 07:54
楼主给个source 吧，我Google 了一下也没看见这新闻说“正式起诉”

原来的新闻是威胁要起诉啊，楼主扭曲事实，成了起诉然后就来自high了，认知水平还不如deepseek

大约一个月

谁也不知道。猜测是违反API terms & conditions.
gocaigo8421 发表于 2025-01-29 07:53

OpenAI，违反了中国的网络条例和数据安全条例（有数据业务的，数据必须保存在中国）啊，他完全原本就封禁了中国的ip. 所以他应该只能在美国告，仅此而已。

大约一个月

去年十一月，我做过一个微积分数学题，用ChatGPT，答案死活都是错的。我都快崩溃了。因为我自己手动做的，证明ChatGpt做错了，但是，无论咋给它提示，它都给同样的错误答案。猜猜错哪里了，为啥错了？错哪里：是一个简单的分数计算为啥：我最后发现它是从网上抄的答案！网上这个题的答案是错的，就错在最后一步分数计算！谁说ChatGpt是人工智能？它实际是用机器对人类智慧进行剽窃。

珠

珠箔飘灯

大约一个月

西北飘雪发表于 2025-01-29 08:01
去年十一月，我做过一个微积分数学题，用ChatGPT，答案死活都是错的。我都快崩溃了。因为我自己手动做的，证明ChatGpt做错了，但是，无论咋给它提示，它都给同样的错误答案。猜猜错哪里了，为啥错了？错哪里：是一个简单的分数计算为啥：我最后发现它是从网上抄的答案！网上这个题的答案是错的，就错在最后一步分数计算！谁说ChatGpt是人工智能？它实际是用机器对人类智慧进行剽窃。

是的，chatgpt的答案还不如手算的。但是，DeepSeek这个，我确实怀疑过是copycat.

大约一个月

minqidev 发表于 2025-01-29 07:48
回复 68楼 gocaigo8421 的帖子
那你重点是什么？这个训练的重点就是学习能力。数据源都不一样，抄什么？

我看了楼主的链接，没人否认deepseek是比openai厉害(simliar or better performace with far less costs)，这条线的主题是 does openai's claims have a leg to standon.

大约一个月

回复 84楼 gocaigo8421 的帖子
OpenAI没证据啊，因为很多地方答案就不一样。
你总不能说，我问两个，中国国庆是哪天，两个答案一样，就说是抄吧，有些东西是事实，结果肯定都一样

Riverss

大约一个月

气急败坏，想搞臭deepseek，等风头过去再撤诉，一贯操作

bigbob

大约一个月

ca563 发表于 2025-01-29 06:52
我这几天听了不少正是访谈和科普视频，每个主持人都问了这个问题，都被专家brush away了。说人家paper里已经写了，这个practice在AI training里非常常见，各家都这么做。再说DeepSeek是开源的，又没有用来盈利，有什么可以告的？

想跟文盲解释这些是不可能的，brush away是明智之举。 don't argue with stupid people