回复 1楼 混凝土举人 的帖子 当年那个生成图片, 仙鹤 变 起重机 那个, 现在改过来了吗? shanggj 发表于 2025-01-01 12:28
混凝土举人 发表于 2025-01-01 12:29回复 3楼 minqidev 的帖子 一开始发布时10次里仅有3次是回答deepseek,说明数据污染已经是实实在在存在的问题,无法回避
有网友在向DeepSeek-V3模型提问“你是谁”时,DeepSeek-V3将自己识别为ChatGPT 来源:社交媒体截图
在进一步提问DeepSeek API的问题,它回答也是如何使用OpenAI API的说明,甚至讲了一些与GPT-4一模一样的笑话。有网友发出疑问,“DeepSeek是否在ChatGPT生成的文本上进行了训练?”
DeepSeek-V3是由国内知名量化资管巨头幻方量化创立的杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)最新发布的全新系列模型,由于这款模型总训练成本低,性价比高,发布后不少网友称其为“国产之光”,且有“AI界的拼多多”之称。但在发布后的一天,便出现了上述疑似“翻车”现象。
DeepSeek-V3并不是第一个混淆自己的模型。科技媒体TechCrunch报道,此前谷歌的AI模型Gemini在被使用中文提问你是谁时,也回答自己是百度的文心一言。
国内一家智能科技公司的技术负责人向澎湃科技记者分析时认为,DeepSeek-V3有可能直接将在ChatGPT生成的文本上作为训练基础,在训练过程中,该模型可能已经记住了一些GPT-4的输出,并正在逐字复述这些内容。
另有业内人士指出,目前互联网大模型优质数据训练集有限,训练过程中不可能没有重合,但是否构成抄袭也很难定义。即便“站在了ChatGPT巨人肩膀上,但成本降下来是真的”。
不过,直接在ChatGPT生成的文本上训练DeepSeek-V3也并不奇怪,前述智能科技公司技术负责人指出,拿GPT的回答作为数据集训练自有模型在国内很常见,“这种不用抓取数据,并且能够额外做数据处理,能节省时间、人力和训练成本。”训练一个大模型需要吞噬海量数据,耗尽了世界上所有容易获取的数据。
TechCrunch在报道中分析认为,造成这类现象的原因在于,目前互联网(AI公司获取大量训练数据的地方)正充斥着AI垃圾。生成式人工智能大模型在互联网数据上进行训练,而这些数据虽然信息丰富,但也充斥着不准确的内容,其中不乏“胡言乱语”。ChatGPT、Copilot和Gemini等AI工具都会为用户提供看似真实但却是捏造的数据。
另据欧洲联盟执法机构的一份报告指出,到2026年,网络内容中可能有90%是由人工合成生成的。报告预测,这种数据“污染”,使得从训练数据中彻底过滤AI生成内容变得非常困难。
我在想:以后A.I.生成的内容是不是能强制打上标签,避免训练数据污染。否则以A.I.添油加醋的能力,以后网上的内容会越来越离谱。以后的世界就是A.I.“定义”的世界了。
过不了多久,大家google出来的东西都是AI在睡梦里生成的内容。然后人类又将它作为知识用文字记录到网络上,最后就是一个真真假假的虚幻世界。
其实这种做法是,事先让模型回答自己想要的答案
当年那个生成图片, 仙鹤 变 起重机 那个, 现在改过来了吗?
一开始发布时10次里仅有3次是回答deepseek,说明数据污染已经是实实在在存在的问题,无法回避
( ̄▽ ̄)", 这个deepseek也不一定回去改,要看基于什么数据。 deepseek,厉害的是用更少钱做更多的事,并不是说他的模型多么厉害。
看来你到现在还不知道deepseek的意义是什么。