Namama 发表于 2025-01-29 18:35 模型的蒸馏需要知道大模型的配重weight, 但OpenAI这方面从来没公开过 所以不可能是模型的蒸馏。。 撑死就是拿OpenAI最新模型的输出结果作为训练数据,给DS进行训练。。 但这和蒸馏是两个概念。。 DS算法效率提高了40-50倍,当然是极大的创新
最好美国下个指令,想和它做好朋友的都不许用DS。这就像韩国人吃不起肉。不是韩国人买不起肉,而是韩国不允许进口肉。国内又不够量,所以大家一起吃泡菜。 felali9 发表于 2025-01-29 23:21
baxiangxiang 发表于 2025-01-29 05:21 Openai正式起诉DeepSeek抄袭 蒸馏技术就是直接用现成的openAI预训练数据进行提纯,算力成本当然非常低。 你问deepseek你是谁?deepseek会说“我是catgpt”
junjunzi 发表于 2025-01-29 05:51 连chatgpt都拼不对,就来当水军了
金鼠座 发表于 2025-01-29 05:55 open souce vs black box so called Openxx
回复 10楼 gocaigo8421 的帖子 蒸馏是A1条件下的新技术,还没有被纳入知识产权保护,如果司法部门介入,将蒸馏技术定义为偷窃,那就完了。 baxiangxiang 发表于 2025-01-29 06:00
sensanmu 发表于 2025-01-29 06:01 可以理解,毕竟某些人的主子损失了1万亿美刀,换谁谁都会急眼
风起洛阳 发表于 2025-01-29 06:07 这下deepseek更火了! 其实挺为国内这些年的发展变化骄傲的。 从TikTok到小红书到deepseek,公司同事对中国的讨论就没断。 再回头看看天天刷手机打游戏的娃我心想你拿啥跟国内卷出来的孩子拼啊
人生在线 发表于 2025-01-29 06:11“ChatGPT 制造商和 OpenAI 最大的投资者微软正在联合调查 DeepSeek 是否以未经授权的方式获取了 OpenAI 的技术。 消息人士告诉该刊物,去年,微软的安全研究人员观察到他们认为与 DeepSeek 有联系的人员使用 OpenAI 的应用程序编程接口(API)获取了大量数据,开发人员需要付费才能使用这项服务。” 微软坐不住了,为了挺小弟撸袖子下场开搞了。
Colud_F 发表于 2025-01-29 06:26 提取数据算什么抄袭, openai的中文数据来自中国大陆,比如百度的, 算抄袭百度吗?
dpgx 发表于 2025-01-29 06:35 如果提取数据那就是抄答案了,下作的中国公司!
baxiangxiang 发表于 2025-01-29 06:00回复 10楼 gocaigo8421 的帖子 蒸馏是A1条件下的新技术,还没有被纳入知识产权保护,如果司法部门介入,将蒸馏技术定义为偷窃,那就完了。
shuijiawangshi 发表于 2025-01-29 05:44 目前测试,中文写作方面,DS甩Openai一条街。
baxiangxiang 发表于 2025-01-29 05:37 确实是抄的啊 一个月前问deepseek 他直接说自己是chatgpt🤣
GRACECHEUNG 发表于 2025-01-29 06:56 应该出台立法:蒸馏人家数据不合法。和学生时代偷看人家答案有什么区别。可人家是花真金白银搭的模型和买的数据,你直接超答案,当然快和便宜了
dodgers 发表于 2025-01-29 06:59回复 41楼 ca563 的帖子 普通人不知道,贼喊捉贼,只要目的是抹黑,让普通人怀疑,不用。就达到目的了。 大家看所有事情的网上评论就知道: 1。人有很多偏见 2。大多数人逻辑思维不强,尤其在自己不懂的领域,是非常愚蠢的
应该出台立法:蒸馏人家数据不合法。和学生时代偷看人家答案有什么区别。可人家是花真金白银搭的模型和买的数据,你直接超答案,当然快和便宜了 GRACECHEUNG 发表于 2025-01-29 06:56
mtwash 发表于 2025-01-29 06:37 首先,OpenAI吹哨人是为什么死的?揭发OpenAI侵犯版权,使用未授权资料。未授权的资料使用的最大罪犯是OpenAI,而不是世界上任何一个其它公司。 其次,Google的Gemini因为用了百度的资料训练,也曾自称自己是文心一言。类似的例子还不少,比如台湾的中央研究院的AI实验室的chat bot,也曾自称自己是上海人工智能实验室的作品。OpenAI先说清楚它自己的资料是从哪里来的,再来声索它的版权吧。
西北飘雪 发表于 2025-01-29 06:40 以后会不会有一天,连用英文都要被起诉?
minqidev 发表于 2025-01-29 06:55 回复 37楼 的帖子 和丢脸没关系,就相当于OpenAI用了百度的数据一个道理。 还有,搜索引擎有数据吗? 不也是抓取? 难道那些数据是谷歌的,百度的?
gocaigo8421 发表于 2025-01-29 07:35 两回事。 A + B = C A 是百度的数据,B是谷歌的数据,openai api 输出是 C, 我估计openai是指控deepseek用了C. 任何人用A和B都是合法的。问题是用C是不是合法。
挺好的 以后AI遍地开花,中小企业自己搞自己的,越用越喜欢。这个AI让那个AI失业也是经常的事情。大家不用怕AI起来没工作,可能工作机会更多都不一定。人生在线 发表于 2025-01-29 07:41
cathytree 发表于 2025-01-29 07:22 同样一道小学5年级奥数的题目,给到chatgpt都做不对,纠正它,死鸭子嘴硬,写了一大篇对不起还是做不对。DS第一次就做对了。
magnoliaceae 发表于 2025-01-29 07:26Altman胃酸过多被送医急救了吧
coalpilerd 发表于 2025-01-29 07:40 openai自己还不是从媒体抓了文章来训练模型的。别人用了他家的输出他要告,那他家用了别家记者费工费力写出来的文字该不该被告?上次那个被自杀的印二代吹哨人不就是戳了这层窗户纸么,认真打起版权官司,他家根本不够赔的。
人生在线 发表于 2025-01-29 07:41挺好的 以后AI遍地开花,中小企业自己搞自己的,越用越喜欢。这个AI让那个AI失业也是经常的事情。大家不用怕AI起来没工作,可能工作机会更多都不一定。
我的问题是他要在哪里告? laqyx6 发表于 2025-01-29 07:49
transient 发表于 2025-01-29 07:54 楼主给个source 吧,我Google 了一下也没看见这新闻说“正式起诉”
谁也不知道。猜测是违反API terms & conditions. gocaigo8421 发表于 2025-01-29 07:53
西北飘雪 发表于 2025-01-29 08:01 去年十一月,我做过一个微积分数学题,用ChatGPT,答案死活都是错的。我都快崩溃了。因为我自己手动做的,证明ChatGpt做错了,但是,无论咋给它提示,它都给同样的错误答案。猜猜错哪里了,为啥错了? 错哪里:是一个简单的分数计算 为啥:我最后发现它是从网上抄的答案!网上这个题的答案是错的,就错在最后一步分数计算! 谁说ChatGpt是人工智能?它实际是用机器对人类智慧进行剽窃。
minqidev 发表于 2025-01-29 07:48回复 68楼 gocaigo8421 的帖子 那你重点是什么? 这个训练的重点就是学习能力。数据源都不一样,抄什么?
ca563 发表于 2025-01-29 06:52 我这几天听了不少正是访谈和科普视频,每个主持人都问了这个问题,都被专家brush away了。说人家paper里已经写了,这个practice在AI training里非常常见,各家都这么做。再说DeepSeek是开源的,又没有用来盈利,有什么可以告的?
Northeastian 发表于 2025-01-29 08:19 好事儿。 还可以告他们用英文, 这肯定是抄的。
你着什么急,才几天?所以他到底有什么算法可以节省那么多的成本?也没有回答的上来的阿。 Hunopupulowawo 发表于 2025-01-29 08:21
Hunopupulowawo 发表于 2025-01-29 08:21 你着什么急,才几天?所以他到底有什么算法可以节省那么多的成本?也没有回答的上来的阿。
🔥 最新回帖
“DS算法效率提高了40-50倍” 就是因为纯粹的马工写代码的水平高?
1月29日,DeepSeek官网显示,它的线上服务,受到大规模恶意攻击。 但这事,不是一般的黑客时间,背后其实暗藏着因为输不起,羞怒之后放的暗箭。 因为,奇安信监测显示,攻击IP全部来自美国,而且DDoS到暴力破解层层升级! 怎么搞的,网上有详细介绍。 这里就不多讲了。 反正有业内很资深的人士,直接出来说:这是国家级别的下三滥手段!
其实就是美国花了好几万亿美元,用AI作为借口,建了个超级赌盘,所有玩家想进去玩,都必须买它的高价门票,它在以此为借口,把AI公司的市值,给抬上天! 但这个超级赌盘,美国人最怕一件事:中国人也进来玩,那这盘就崩了,所以他们专门搞了个大门槛:中国人不许进来玩!
哈哈,一针见血😃😄
🛋️ 沙发板凳
linky?
https://www.the-independent.com/tech/deepseek-ai-china-r1-nvidia-stock-price-trump-live-updates-b2688097.html
连chatgpt都拼不对,就来当水军了
你是来搞笑的吗?这不是山寨的精髓吗?
蒸馏是A1条件下的新技术,还没有被纳入知识产权保护,如果司法部门介入,将蒸馏技术定义为偷窃,那就完了。
oh well but at least openai didn't call itself deepseek, right?
I am not saying it is. I think the best they can claim is the usage violates its terms and conditions. but who reads T& C nowadays? LOL. also, I kinda don''t believe they don''t throttle the API calls.
再回头看看天天刷手机打游戏的娃我心想你拿啥跟国内卷出来的孩子拼啊
都涨回来一半了,你能等两天再说吗?幼稚!
可是catgpt并不是chatgpt 啊?😉
openai的中文数据来自中国大陆,比如百度的,
算抄袭百度吗?
完全没有错 可是你想要你的娃快乐童年还是去衡水呢
那么ds的开发人员付费了吗?好奇如果答案是肯定的,那就不存在抄袭的问题了吧?
首先,OpenAI吹哨人是为什么死的?揭发OpenAI侵犯版权,使用未授权资料。未授权的资料使用的最大罪犯是OpenAI,而不是世界上任何一个其它公司。
其次,Google的Gemini因为用了百度的资料训练,也曾自称自己是文心一言。类似的例子还不少,比如台湾的中央研究院的AI实验室的chat bot,也曾自称自己是上海人工智能实验室的作品。OpenAI先说清楚它自己的资料是从哪里来的,再来声索它的版权吧。
不争气的中国公司,又一次做实了抄袭。啥时能创新出别人没有的东西?
强盗逻辑就是我抢不算抢,你抢是强盗
Oai技术到顶了,接下来就该美国政府上场了。
还有这样回朔的?
并没有吧。实测下来,写阳春白雪和下里巴人的确非常厉害,但是让它写介于两者之间的试试
我这几天听了不少正是访谈和科普视频,每个主持人都问了这个问题,都被专家brush away了。说人家paper里已经写了,这个practice在AI training里非常常见,各家都这么做。再说DeepSeek是开源的,又没有用来盈利,有什么可以告的?
你没搞懂什么叫cat吧,LOL
和丢脸没关系,就相当于OpenAI用了百度的数据一个道理。
还有,搜索引擎有数据吗? 不也是抓取? 难道那些数据是谷歌的,百度的?
普通人不知道,贼喊捉贼,只要目的是抹黑,让普通人怀疑,不用。就达到目的了。
大家看所有事情的网上评论就知道:
1。人有很多偏见 2。大多数人逻辑思维不强,尤其在自己不懂的领域,是非常愚蠢的
那么多人恨不得抄,咋没抄出来。技不如人,就开始骂娘。low
我觉得还是不一样的,用数据怎么也不算抄,应为数据就是一项单向的输入/input。
openai 指控的是 deepseek 用了openai处理后的输出/output/response
你看看前面的人的答案和例子,如果用其他LLM generate的synthetic data不合法,那犯法的就不是Deepseek一家,每一家都犯了这个法。 最基本的说,最开始从互联网上提取数据就不合法
生意人都会现行的。
问题来了,你说“人家是花真金白银搭的模型和买的数据”, 可OpenAI的数据自己涉嫌盗用,要不OpenAI吹哨人在吹什么哨呢?
倒是这里面比较明确的是,总费用那就不止600万美元,有大幅降低费用,但不是到600万美元这么剧烈和夸张。
可以说局势到现在这个地步,可以说是happy ending了,英伟达和半导体厂商、各大AI巨头公司、各路跃跃欲试等待上场的小公司,以及DeepSeek自己,都开心了。
Altman为了抄袭不惜杀人灭口,是谁侵犯演员斯嘉丽约翰逊声音版权的?下作的垃圾,贼喊捉贼
真有可能,会说26个英文字母是祖上传下的,凡是有人用字母,必受其后代长臂所管辖+制裁😂。
两回事。
A + B = C
A 是百度的数据,B是谷歌的数据,openai api 输出是 C, 我估计openai是指控deepseek用了C. 任何人用A和B都是合法的。问题是用C是不是合法。
openai自己还不是从媒体抓了文章来训练模型的。别人用了他家的输出他要告,那他家用了别家记者费工费力写出来的文字该不该被告?上次那个被自杀的印二代吹哨人不就是戳了这层窗户纸么,认真打起版权官司,他家根本不够赔的。
你不懂就不要猜了。 因为你要准备原始数据,就像scale AI是人工打标签,Deepseek必须通过网络的方式,去查自己能查到的所有数据
假设,你可以从chat gpt知道,费不垃圾数(我自编的)是。 1 3 5 7
Deepseek用这个去产生一种思维,找出公式,其实你可以从他们源码看出他们训练方法,他们源码大家都在分析。 1 + 2*i
为什么用chat gpt,是因为chat gpt是目前最能理解自然语言的平台。你去google,准备这个费不垃圾,并不一定那么准确
有道理,大家都告来告去的。感觉律师这个行当绝对不会被替代,都要忙死了😂
楼主人才,把开源的代码贴上来一端呗看哪里抄了?
OpenAI讲的故事是,AI是我们的,谁拥有更多GPU谁说了算 DS讲的是,AI是全人类的,每个人都可以搞
段位不一样。讲抄袭跟投诉刹车失灵一样幼稚。
这很好解释的,deepseek 这么多奥数得奖的,奥数题目很可能都训练过了,外加deepseek有很多其他的优化,但这不是这条线的中心问题啊。
😂😂😂
那你重点是什么? 这个训练的重点就是学习能力。数据源都不一样,抄什么?
那是我上面讲到的A有特殊的版权吧?
但是从阿里的反应来看,它搅合的更多是国内企业。 本来大家都憋着赚钱的,它来把桌子掀了,以取巧的手段。 当然抛开合法不合法,这个概念值不值得借鉴还要看。
在美国,告得Deepseek威胁美国安全就行 就和大蒜一样
确实,干不过就抹黑。有些人确实是在自己不懂非领域里还要跳出来充专家。
谁也不知道。猜测是违反API terms & conditions.
原来的新闻是威胁要起诉啊,楼主扭曲事实,成了起诉 然后就来自high了,认知水平还不如deepseek
OpenAI,违反了中国的网络条例和数据安全条例(有数据业务的,数据必须保存在中国)啊,他完全原本就封禁了中国的ip. 所以他应该只能在美国告,仅此而已。
是的,chatgpt的答案还不如手算的。 但是,DeepSeek这个,我确实怀疑过是copycat.
我看了楼主的链接,没人否认deepseek是比openai厉害(simliar or better performace with far less costs),这条线的主题是 does openai's claims have a leg to standon.
OpenAI没证据啊,因为很多地方答案就不一样。
你总不能说,我问两个,中国国庆是哪天,两个答案一样,就说是抄吧,有些东西是事实,结果肯定都一样
想跟文盲解释这些是不可能的,brush away是明智之举。 don't argue with stupid people
有证据,早出来了,搞数据的都会埋东西,比如中国国内大数据的做法,一般就是还没公布的文物的简牍单位识别,稍微一问就知道数据有没有被用。
为什么,中国几个大数据经常被偷用,所以里面都加入中国自己文物,甲骨文,简牍什么的
以后肯定会越来越慢,除非它实打实从原始数据利用模型来计算,那样的话肯定需要大量的芯片和电力
你估计……不懂就别瞎带节奏
楼主胡诌的吧。。。
可不是 英文肯定是抄的
告诉了你们,你们也就偷?想偷TiKTOK算法还没成,又想偷Deepseek的了?这DeepSeek是在国内的,你也抢不走啊。浓浓的八国联军后裔味儿:你的好东西就是我的。如果不能变成我的,就砸了它,比如圆明园的残垣断壁,比如大英博物馆的中国文物
注册两天的号,年初一就来发帖子要狗粮了?
什么算法………open source不会自己去看么?