DeepSeek疑似抄袭ChatGPT: 技术及数据源对比分析

吉宁江65
楼主 (文学城)

随着DeepSeek的出现,有关其是否在开发过程中抄袭了ChatGPT的技术的讨论逐渐增多。本文将基于对比实验,探讨DeepSeek是否借用ChatGPT的技术,并揭示其在技术实现方面可能存在的相似性和差异性。

一、验证DeepSeek的思路

一般来说,验证两个系统是否相同,最直接的方法是比较它们在相同输入条件下的输出结果。如果两个系统在处理同一问题时给出的答案完全一致,则可以推测这两个系统在算法或架构上存在高度的相似性,甚至可能是相同的。在本研究中,主要采用以下两种验证方法:

信息一致性检验
首先,通过从两个不同的数据库中调取相同的信息,观察其输出结果。如果两个数据库返回的结果完全一致,那么这两个数据库的底层结构很可能是相同的。 特殊变量【MASK】的使用
利用特殊的变量【MASK】获得可能性词汇,检验两种算法是否等同.  具体来说,[MASK] 是一个占位符,表示在这个位置需要填充一个词语。模型会根据句子中的其他词语(即上下文)推理算法,预测最合适的词语,并将其替换到 [MASK] 的位置。通过比较DeepSeek与ChatGPT在相同输入下对【MASK】位置的填充结果,检验两者的推理机制是否一致。

随机抽取了67个检测样本进行对照检验, 发现DeepSeek与ChatGPT具有高度的相似性。下面举具体验证例子实例和结果.

实例1

输入句子:
Up to 30 [MASK] and babies died at Furness General Hospital because of failings by staff and management, a damning report is [MASK] to reveal.

ChatGPT输出:
Up to 30 mothers and babies died at Furness General Hospital because of failings by staff and management, a damning report is expected to reveal.

DeepSeek输出:
Up to 30 mothers and babies died at Furness General Hospital because of failings by staff and management, a damning report is expected to reveal.