购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

面对抄袭的指责:什么是蒸馏?

比起徒劳的封禁,对于DeepSeek抄袭的指责,显得更有正当性和迷惑性。

较早对DeepSeek发出疑问的是AI领域的门外汉,不过这只是充满欢乐色彩的乌龙事件。如图1-2所示,有网友在向DeepSeek-V3模型提出“你是谁”这一问题时,DeepSeek-V3的回答是ChatGPT,这被当成DeepSeek抄袭的“铁证”,并开始在网络上疯传,逐步演变为一场群氓的狂欢。

科技媒体TechCrunch报道,此前谷歌的AI模型Gemini在中文语境下被提问“你是谁”时,回答自己是文心一言。Meta的Llama 3在西班牙语场景下被误标为“Claude”。

DeepSeek-V3有可能直接将ChatGPT生成的文本作为训练基础。在训练过程中,该模型可能已经记住了一些GPT-4的输出,并会逐字复述这些内容。另有业内人士指出,目前互联网大模型优质数据训练集有限,训练过程中不可能没有重合。

究其根源,数据污染已成为行业系统性风险。随着ChatGPT等大模型生成内容的海量扩散,互联网正沦为“AI垃圾场”:欧盟预测2026年90%的在线内容或由AI生成。当开发者使用公开网络数据训练模型时,即便数据经过严格清洗,仍无法完全过滤潜藏的AI痕迹。

图1-2 当被问及“你是谁”时DeepSeek的回答

图片来源:社交媒体截图。

不过,信者恒信,疑者恒疑。对DeepSeek身份的质疑迅速演化成两种声音,一种认为DeepSeek是抄袭或套壳,而另一种则指向了数据蒸馏。

对DeepSeek抄袭或套壳的指责,在DeepSeek开源的一刻就已经不攻自破了。因为开源,所有代码都是公开的,如果套壳,那就等于自己把证据大白于天下。

开源的透明性使得DeepSeek的技术实现完全公开,任何对其技术来源的质疑都可以通过查看代码来验证。这种透明性不仅证明了DeepSeek的技术独立性,也展示了其对知识产权的尊重。

一个AI模型的表现本质上是由三个基本因素决定的:一是神经网络架构,二是参数数量,三是具体参数的权重数值。这就与OpenAI闭源构成一个悖论:因为OpenAI是闭源的,所以抄袭者就会无处可抄;而又因为DeepSeek采取开源,如果抄袭,自然又无源可开。开源策略使得DeepSeek的技术细节完全透明,任何试图通过抄袭来获取技术优势的行为都会被迅速发现并公开。

而蒸馏却是一个颇为值得讨论的问题。

在人工智能领域,知识蒸馏(knowledge distillation)技术的发明通常被归功于杰弗里·辛顿(Geoffrey Hinton)。辛顿在2015年的一篇论文中首次提出了AI蒸馏技术。该技术的核心思想是通过让一个较小的模型(学徒模型)学习一个较大模型(导师模型)的输出,从而在保持较高性能的同时降低计算成本和模型规模。

简单地说,知识蒸馏的基本原理在于利用一个较为庞大的“导师模型”来指导一个较为紧凑的“学徒模型”,从而使学徒模型能够在资源受限的场景下尽可能地复现导师模型的性能表现。这一技术过程可以类比为“一位导师对学徒的知识传承活动”,设想一位资深专家(导师模型)正在向一位新手(学徒模型)传递复杂的专业知识。这位专家不仅向学徒展示知识的具体内容或解决方案(即模型的输出结果),还会深入剖析这些内容或解决方案背后的形成机制,帮助学徒理解知识或某一结论的内在逻辑。这样一来,当面临实际任务(向模型输入指令)时,学徒就能够给出可与导师相媲美的高质量回应(模型的输出结果)。关于知识蒸馏的细节,我们将会在本书后文详细展开讨论。

2025年1月29日,OpenAI指控中国人工智能初创公司DeepSeek使用模型蒸馏技术来训练自己的模型,并暗示这可能违反了OpenAI的服务条款。OpenAI声称,DeepSeek通过API(应用程序接口)大量提取ChatGPT模型的输出数据,并利用这些数据训练自己的开源模型(R1),这一过程被认为可能构成知识产权侵权。

然而,模型蒸馏技术本身是合法的,关键在于数据的获取和使用是否合法。根据OpenAI的用户协议,用户对其通过OpenAI服务生成的输出内容享有完整的所有权,包括获取、使用、修改及商业化权利。因此,只要用户在获取和使用数据的过程中遵循协议,其行为就是合法的。此外,AI模型的训练数据和方法是否构成“知识产权”,尚无全球统一标准。因此,即使DeepSeek使用了OpenAI生成的数据进行蒸馏,这些数据只要是通过合法途径获取的,就不构成侵权。

所以,尽管OpenAI提出了上述指控,但其CEO萨姆·奥尔特曼(Sam Altman)明确表示,OpenAI没有计划对DeepSeek采取法律行动。在2025年2月3日的采访中,奥尔特曼表示:“我们目前没有起诉DeepSeek的计划。我们将继续打造卓越的产品,并以模型能力引领世界,我相信这会很好。”

颇为讽刺的是,此时的OpenAI还深陷与《纽约时报》的官司。2023年12月27日,《纽约时报》将OpenAI和微软告上法庭,指控这两家企业未经授权便使用其数百万篇文章来训练ChatGPT等AI聊天机器人。这场诉讼是全球首个大型媒体机构起诉AI平台侵犯版权的案例。

《纽约时报》起诉OpenAI和微软的案件中,主要指控内容包括:OpenAI和微软未经授权便使用《纽约时报》的数百万篇文章来训练ChatGPT等AI模型。ChatGPT能够逐字复制《纽约时报》的文章内容,并模仿其写作风格,对文章进行提炼和总结。这种未经授权的使用不仅侵犯了版权,还给新闻出版商制造了潜在的竞争对手,损害了其获得订阅、版权许可、广告和其他附带收入的能力。

从《纽约时报》的指控内容来看,其核心问题在于OpenAI未经授权便使用《纽约时报》的文章来训练ChatGPT模型,这主要涉及侵犯版权问题。而知识蒸馏技术本身是一种合法的技术手段,用于优化和压缩模型,其关键在于如何获取和使用数据。因此,OpenAI对DeepSeek的指控颇有些“贼喊捉贼”的味道。

而整件事的背后,其实揭示了AI发展的一大困局:数据枯竭的危险迫在眉睫。自2020年以来,用于训练大语言模型的数据规模增长了100倍,可能已经占据了互联网中很大一部分内容。然而,互联网可用内容的增长速度却非常缓慢,年增长率不到10%。与此同时,AI训练数据集的规模每年翻倍。这种不平衡导致了数据资源的快速枯竭。

为了应对这一威胁,目前总共有三种方案。第一种是使用合成数据,通过计算机模拟或算法生成的带有注释的信息来替代真实数据,以补充数据的不足。根据Gartner(高德纳)的预测,用于训练大模型的数据中将有60%是合成数据。第二种应对之策就是寻找非常规数据源:一些AI公司正在转向使用专注于特定领域的专业数据集,如健康护理、环境等领域。第三种则是优化数据使用效率:通过改进模型架构和训练方法,减少对数据的需求。

无论采用哪种方案,数据蒸馏技术在解决AI数据集枯竭问题上都具有不可替代的重要性。数据蒸馏技术通过从大规模数据集中提取关键信息,构建一个更小但更具代表性的数据集,从而显著降低存储和计算成本,同时提高模型训练的效率。

因此,对DeepSeek抄袭的指责,本质上是对未来变革的不适。尽管如此,DeepSeek仍将被一些人指责为“盗窃者”,但事实上,DeepSeek并非盗窃者,而是把火种带给人间的“盗火者”。 w1n6zraX7jdhK5naJfnJOKu2uM2dSKft0SX4CYv4AIzrFkSIdTjTNhi8DeGoOTb1

点击中间区域
呼出菜单
上一章
目录
下一章
×