



随着AI视频技术的持续进步,它不仅显著提升了生产效率,同时也对传统产业中的部分工作岗位造成了冲击,掀起了一股失业浪潮。这一现象引发了人们对AI视频技术利弊的广泛争议。下面从显著提高生产力、焦虑的好莱坞、AIGC作品的版权争议和AIGC导致电诈更猖獗4个方面来讲解AI视频技术所带来的影响。
随着AI视频技术的持续进步与革新,其在显著提升内容生成效率的同时极大地推动了生产力的飞跃式增长。下面介绍AI视频技术如何显著提高生产力。
2023年6月14日,国际著名咨询机构麦肯锡发布了关于AI的报告《生成式人工智能的经济潜力:下一波生产力浪潮》。为了研究AI跳跃式快速发展对全球经济的潜在影响,麦肯锡以47个国家及地区的850种职业(全球80%以上劳动人口)为对象,分析不同职业和人群面临的风险与挑战。
在报告中,分析师预测了生成式AI对人类经济和生产力的影响:
□ 在未来的30年,现有工作的60%~70%将实现自动化,50%的职业将逐步被AI取代;
□ AI带来的价值增长,约75%集中在客户运营、营销和销售、软件工程和研发4个领域;
□ AI的普及应用将使生产力全面提高0.1%~0.6%,可为全球经济带来3.5万亿美元左右的年度增长。
AI将形成比尔·盖茨所形容的“堪比PC问世的最具变革性创新”,通过大幅度的AI换人、自动化来显著提高人类的生产率。
在新媒体时代,快手、抖音等短视频平台快速崛起,视频这种无须费脑、信息量更大、表现形式更多样化的形式迅速消耗人们的碎片时间,人们在愉悦中被直播带货、植入广告等引导进行消费。在流量经济时代,视频集娱乐、消费、生活、沟通于一体,不可或缺且极其重要。AI视频在搞笑短视频、无人直播、文旅宣传、创意广告、影视制作等领域已经大放异彩。
赵可傲等人 [4] 总结了近3年知名的AI视频应用案例。
2023年4月,Corridor Digital团队发布了AI动画短片《石头剪刀布》,展示了通过文生图模型生成视频的制作流程,包括微调Stable Diffusion模型以生成稳定的动画形象,通过虚幻引擎5(Unreal Engine5)渲染背景等。
2023年6月,漫威剧集《秘密入侵》的片头即采用Stable Diffusion技术,创意性地利用AI生成的不稳定特征增强画面神秘感与不确定性。
在商业广告和预告片中,Runway与Pika也已被广泛运用。电影《瞬息全宇宙》使用Runway公司的视频技术实现画面的快速抠像与风格化转换,大大提升了制作效率,从而凭借小规模团队完成了整部影片的视效制作。
Our T2 Remake是全球首部完全由AI制作的长篇电影。这部电影是一个由50位AI艺术家组成的团队打造的,他们利用Midjourney、Runway、Pika等AIGC工具进行协同创作,展示了AI在艺术创作中的潜力和可能性。
2024年2月推出的Sora将AI生成视频的质量推向了新高度,其示例短片的质量与真实感远超目前其他生成方法与应用。2024年4月,OpenAI公布了由Sora生成的剧情短片Air Head等作品。虽然这些作品在画面的一致性和细节处理上仍有改进空间,但是它们展现出了AI在视频制作领域的巨大潜力。
为了应对AI视频生成技术飞速进步带来的冲击,相关行业需要吸纳AI视频这一全新的艺术表达方式,2024年4月,第十四届北京国际电影节为AI视频作品设立了专门的AI视频单元。在北京电影节上,众多影视界大咖分享了对AI视频的个人见解。
谈及AI对电影行业的改变,北京光线传媒股份有限公司董事长王长田认为:第一,AI可以提升电影制作的效率,尤其是动画电影;第二,它可以降低成本,这对于亏损率较高的电影行业来说将会是一个巨大的推动;第三,AI作为一种技术,可以提升电影制作质量,避免低质量产品的出现。但他也表示,AI让好的创意、独特的审美越来越难,产生大量同质化内容,这也会导致好的内容更不容易脱颖而出 [5] 。
导演黄建新回顾了电影技术的发展史 [5] ,他认为技术才是电影的支撑力和原动力。他认为:电影是由技术产生的,不是由艺术产生的。他直言,AI是一个好东西,我们跟它建立良好的关系只会有好处,所以要拥抱AI。
AI视频技术显著提升了影视动画、短视频与广告营销等产业的生产力,让视频制作更快、更简单、成本更低。
AI视频技术使得动画内容生成逐渐智能化,避免把时间浪费在烦琐和密集的工作上,使创作能够更多地关注创意和创新,从而显著提高动画制作的效率和质量。
AI视频大幅度缩短了传统影视动画的制作周期,使得高质量的动画娱乐内容能够更快、更经济地被创作出来。原来许多需要导演指导、室外取景、场景布置、演员表演才能获得的内容,现在可以利用在线平台和提示词引导一键生成,不满意就多试几次。
在影视行业里,玄幻、科幻等影片的特效费钱又费时,号称燃烧的经费。例如,在2015年元旦档热映的电影《智取威虎山》,公开资料显示,特效公司在该片开拍前和开拍期间共投入了约100名员工,后期增加到了200人,其中仅老虎特效的制作研发就花了两年多的时间 [6] 。如今,一些需要较高成本才能实现的特效,通过AI视频技术也许只需要输入几个提示词,花费2块钱算力和20分钟就能获得。
配音是影视制作中比较重要的一环,需要大量的配音演员反复尝试。AI语音合成模型可以用大数据进行训练,获得各种非常自然的口音、语气和风格,为视频制作者提供广泛的选择。此外,AI语音编辑可以轻松调整节奏、重音和发音等参数以满足特定的项目要求。感兴趣的读者可以尝试YouTube为视频自动配音的Aloud服务。
AI视频编辑技术可以显著地降低视频后期的处理工作。在色彩校正、背景去除和声音编辑等专业任务中,已经大量采用AI技术,例如自动创建跳转剪辑、消除静音、加速场景、改进视频和播客中的编辑、精确定位剪辑的最佳版本并过滤掉不需要的镜头、自动生成Vlog等,让原本需要熬夜加班才能完成的工作变成了“小菜一碟”。
AI视频分析可以为视频内容自动生成字幕并翻译,使得语言不再成为障碍。同时,AI可以自动总结并整理视频内容的大纲,以方便观众快速概览并获取关键信息。这些AI技术在B站(哔哩哔哩,简称B站)上已经成为日常功能。
视频内容是在线流量的主要驱动力,约占其中的80%。营销人员一直认为视频是接触受众最有效的营销媒介。HubSpot的研究表明,90%使用短视频的营销专家计划提升视频营销比重。
AI视频分析可以跟踪观众的参与度,分析观众观看的时长与内容跳过模式等行为,以了解视频营销策略中哪些是有效的,哪些是无效的,进而完善视频营销策略以获得更大的影响力。这些富有洞察力的数据使企业能够根据人口统计、兴趣和偏好对受众进行细分和定位,为特定的观众群体定制内容并进行精准推送,提高其视频营销工作的整体有效性。
根据Grand View Research给出的2022年的数据可知,全球AI视频行业技术市场价值约为4.729亿美元,预计从2023年到2030年将以19.0%的年复合增长率(CAGR)增长,如图2-1所示。笔者认为,Grand View Research远远低估了AI视频给影视动画和短视频行业带来的显著的降本增效效果。然而,我们不能简单地批评Grand View Research的预测有误,因为没有人会想到从2023年开始,AI视频会如此快速地迭代进步,甚至让好莱坞感到焦虑。
图2-1 AI视频市场规模预测(Grand View Research,2022)
随着AI视频技术的不断发展,许多传统影视公司倍感压力,如好莱坞的多家公司。下面进行详细的介绍。
著名国际人才服务公司RobertHalf为研究员工对生成式人工智能的看法,在美国发起了一项针对2 500多名员工的调查。调查数据显示,多达41%的员工认为AI将促进其职业发展,仅14%的员工认为AI可能淘汰其职业。另外,约26%的员工认为AI的影响可以忽略不计。
通过更深入的分析发现,越年轻的人对AI的看法越积极。其中:16~30岁的群体,看好AI的占比63%;31~45岁的群体,看好AI的占比57%;46~60岁的群体,看好AI的占比30%;61~80岁的群体,看好AI的占比21%。通过调查可知,35%的人认为在工作中可以用AI将烦琐的任务自动化完成,30%的人认为AI会显著提高工作效率和生产力。
当然,这项调查的样本数并不多,其统计分析不一定具有普遍意义。我们在某些方面正在受惠于生成式AI带来的利益,比如GPT自动写作、音视频生成与剪辑等办公辅助以及婚纱写真的快速降价。但是,如果我们本身是编剧、自媒体视频创作者或演员,很可能已经被AI优化了。不同职业面临AI挑战的暴露度差别巨大。OpenAI在2023年4月份发表的论文《GPT:大型语言模型对劳动力市场潜在影响的早期观察》中充分阐释了这一点。
ChatGPT的写作和认知水平堪比大学生,足以威胁世界上90%的文字写作工作。AI绘画在创作同等质量的图片时,其艺术创意、高效率与低成本碾压全人类;AI视频能在短短数天内生成一部需要拍摄数月、耗费巨额资金的电影。
面对AI视频显而易见“砸饭碗”式的冲击,好莱坞的影视动画从业者选择了反抗。
2023年7月13日午夜,美国演员工会及广播电视艺人联合工会(SAG-AFTRA)宣布他们与制片公司的谈判破裂,确定从即日起启动1980年以来首次大罢工,工会16万名表演者立刻停止所有影视拍摄和宣传工作。此前,美国编剧工会已在5月2日开始罢工。两大工会63年来首次联合罢工,直接波及已进入拍摄的作品,包括《碟中谍8》《死侍3》等知名大项目 [7] 。
在这场席卷整个好莱坞的罢工行动中,除了往届谈判常会出现的收益分配、待遇保障等与资方的矛盾外,AI可能取代演员和编剧的威胁成为新的争议焦点。
编剧工会提出,要对AI参与项目进行监督、AI生成的内容不得作为原始素材、工会成员的剧本不得被拿来用于训练AI,但诉求被制片人联盟拒绝,演员战线的谈判也不乐观。制片人联盟一方提出了一项提议,片方可使用专业设备对影视剧中的群演进行扫描,获取演员表演的数字素材并支付当日酬劳,而扫描获得的素材可被片方另作他用。演员工会担心片方会在没有支付酬劳或获得批准的情况下用演员的肖像结合AI生成表演或者对表演进行数字化修改 [8] 。
这种担忧并非没有根据。2024年播出的《黑镜》第六季第一集中极有预见性地描绘了这样一幕:一位好莱坞女明星将本人肖像权授权给片方,结果被“一键换脸”出现在AI创作的侮辱场景里,按合同她还不能寻求赔偿。获得过奥斯卡提名的萨尔玛·海耶克(Salma Hayek)在剧中以本人形象出演。
眼看流媒体增长趋势放缓、票房大片折戟,好莱坞高管们将希望寄托在突飞猛进的AI技术上,希望让AI参与到影视创作中,挽救摇摇欲坠的商业模式。然而编剧、演员们担心,如果同意AI参与剧本创作并让渡肖像权给AI加工,长期来看创作者会被逐步取代,受益的只有资本方。用演员工会代表的话说,“我们都面临着被机器取代的危险”。
这不仅是好莱坞63年来的首次全行业罢工,也被认为是人类抵抗人工智能威胁的首次集体行动。SAG-AFTRA主席法兰·德瑞雪当日在新闻发布会上表示:“如果现在不昂首挺胸,我们就会陷入困境,都将面临被机器取代的危险。”
澳大利亚、加拿大、英国、意大利等国家的编剧工会纷纷声援美国同行,澳大利亚和英国的编剧工会告知其成员不得接手因美国编剧罢工而停摆的现有项目。
美国《洛杉矶时报》称,演员与编剧同时罢工,意味着好莱坞影视业63年来首次全面停摆。编剧和演员称,他们组织罢工是为了扭转薪酬下降的趋势。与传统的电视、电影相比,人工智能及流媒体使他们的薪水和工作条件恶化,他们要求制片方和流媒体公司保证不会以人工智能技术生成的面孔和声音来替代演艺人员。
从2023年到2024年,AI的飞速成长为视频产业链打开了一扇新的窗户。谈及AI视频大模型亦是“喜忧参半”。在看到AI视频模型的颠覆性迭代后,演员、电影制片人兼制片厂老板泰勒·佩里(Tyler Perry)为此搁置了耗资8亿美元的制片厂扩建计划。此前,佩里已经在两部电影中运用了AI技术。他谈道,通过人工智能的特效加持,仅仅在老化妆容的部分就省略了数个小时。
编剧与导演谁更重要,一直是影视制作中的经典话题。编剧以创意和讲故事为核心能力,导演则负责呈现。如今,AI视频让呈现由拍摄简化为生成,人人都可以当导演,从而让能充分利用AI优势的“创意”更受关注。那些有故事又有创意的创作者通过购买数百元的算力使用费,就可以把烦琐、费时且耗资巨大的拍摄过程变成只需要“输入提示词,单击生成”的简单操作,曾经的经费不足或技术问题都被AI轻松化解。
AI视频如此有效,那么以影视动画为职业的从业者该何去何从,是不是要被AI优化了?
众所周知,游戏原画设计师是第一波被AI绘画替代的人。影视场景概念设计师如果不会AI,大概率不会收到知名工作室的Offer,因为“会使用AI”已经成为新人的基本要求。
大学生、高校老师、行业精英从各自角度评价了AI视频对人们的影响 [9] 。
一位评析过央视AIGC诗词动画《千秋诗颂》的动画专业的高校学生表示:“AI所创作的动画目前已经能够达到比较完整的程度,并且还在持续发展。我不确定以后是否能够创作出比AI更加优秀的动画作品。”
一位高校教师表示:“AI是不可抵挡的时代趋势,我们应该适当地改变教学内容。”
快手视觉生成与互动中心负责人万鹏飞认为,当AI视频生成效果接近图形渲染时,将为特效、游戏、动画行业带来变革;当效果接近视频拍摄时,将对泛视频行业带来新挑战和新机遇。此外,视频创作者和消费者的界限会逐渐模糊,未来如果有越来越多的视频消费者变成创作者,那么对整个视频内容生态的繁荣将帮助极大。
习惯使用GPT辅助写作的我们,已经从各个细节享受到了AI提高人类生产力带来的“公共福利”,但如何让AI视频利好我们的职业生涯而非伤害,完全取决于我们的态度与行动。AI视频师已经成为一个新的职业,在相关网络招聘平台上岗位较多且收入相对较高,如图2-2所示。
图2-2 AI视频招聘职位(左图为51Job,右图为智联招聘)
有个网友的观点很有意思:影视动画专家是最适合操作AI视频的专业人士,而不是被AI替代。因为只有他们才知道如何把握节奏、讲好故事、触动情绪。
AI视频在社交媒体爆火之际,其全新的内容创作方式带来了许多新的争议,首当其冲的就是AI生成的视频是否有版权。下面详细介绍AIGC作品的版权争议的相关内容。
人工智能生成内容的著作权确权模式仍在研究之中,其路径如图2-3所示。AI视频带来了著作权制度基础的变革,导致其创作的视频内容通过著作权确权模式保护的方案存在局限。传统确权模式下作品的人类中心主义与人机共生特征不符。
图2-3 AIGC可版权性证立路径 [10]
到目前为止,著作权制度是建立在以人类为中心的基础上,不论在理论层面上抑或实践操作中,都以人类的贡献作为著作权保护与否的分界。具体表现为 [10] :
□ 智力成果的创作主体是人;
□ 创作行为是人直接(主导)创造作品的过程;
□ 作品是作者人格权的体现;
□ 人的创造贡献决定了作品的著作权归属。
在ChatGPT出现后,我们可能会反思:GPT生成的内容有时候更好,算不算AI在从事创新活动?传统的著作权确权以“人类中心主义”为基础,在AI时代摇摇欲坠。
从AI视频生成的过程来看看,人类是创作过程的启动者,向大模型提出指令,大模型独立生成具有独创性价值的视频内容。人类和大模型对生成内容是否构成作品的贡献比例虽不同,但重要性等同且缺一不可,体现为人机共生特征。以人类为中心的著作权保护先决条件,与AI视频的人机共生特征不符。
在当前状态下,AI生成内容的版权理论研究和法律改革均难以及时跟进AI的进化速度,难以明确界定什么样的AI视频在什么情况下拥有什么程度的版权。不过,近两年有3个典型的AI作品侵权案例的判决,可以给我们提供参考与启发。
有着20多年影视从业经验的陈坤曾是《这!就是街舞》等大型综艺节目的总监制,他2023年开始探索AI影视制作。2023年,陈坤发现某百万粉丝的“大V”涉嫌抄袭其主创的《山海奇镜》预告片。
“不仅画面逻辑、剪辑节奏一样,配音、配乐、动效、字幕相同,还把有我们主创人员名单的片尾剪掉替换成他自己的,甚至拿着我这个片子为他们的课程销售引流。”陈坤告诉《每日经济新闻》记者。
2024年3月11日,陈坤将上述账号的经营企业和短视频平台分别列为被告,以自己的著作权被侵犯为由在北京互联网法院正式对“文刻创作”提起法律诉讼,指控后者未经授权,擅自使用人工智能技术复制并公开发布了与其作品极为相似的侵权视频。陈坤的诉求是,被告删除侵权视频,公开赔礼道歉并赔偿他的经济损失50万元。
原告代理律师透露,被告“文刻创作”于2024年1月18日在抖音平台上发布了一段视频,该视频不仅抄袭了原告预告片的文案、配音和音乐,还运用AI技术对画面进行了重新绘制,导致整体效果和细节特征与原告作品极为相似。被告宣称该视频为原创作品,未提及作品来源,也未保留原告的署名,并利用该作品进行商业活动,通过自媒体矩阵号进行直播。被告的行为侵犯了原告的信息网络传播权、改编权、署名权等著作权,违反了《中华人民共和国著作权法》第五十二条,构成侵权。原告已向法院提起诉讼,要求被告停止侵权并寻求法律赔偿。
此案于2024年4月11日在北京互联网法院正式立案,为全国“人工智能影视版权”第一案。2024年5月15日,该案进行了一审庭前谈话。
“我们做了补充证据,证明视频的制作过程——如何文生图、再图生视频。我们会还原整个制作过程,后续可能还需要再演示一遍,证明这个AI视频的制作需要投入大量的人力劳动。”陈坤对记者表示,AI视听作品的版权还是一个新事物,最模糊的认定在于用AI做的视频有没有版权?“我打这个官司就想证明使用AI软件做成的短片蕴含大量人类劳动,具有版权。”
在陈坤看来,这个案例将会对整个行业起到借鉴意义。“AI影视作品的商业化才刚刚起步,多家头部短视频平台都在投入定制AI短片。如果AI视频本身的版权链不清晰,对行业将是一个毁灭性打击。我打这个官司就想证明这一点——用AI做出来的影视作品也是有版权的。”
据澎湃新闻报道,对于原告陈坤的指控,被告方回应:在发布该视频前,他对作品的创作过程并不知情。此外,该作品发布后并未有任何盈利行为,并且在得知涉嫌侵权后已及时删除该视频。对于索赔50万元这一金额,他并不接受,称其他交由律师处理 [6] 。
陈坤在“闲人一坤”微信公众号中说:“不论到了哪个时代,蕴含人类创造的作品永远都有价值,都值得被保护,版权在AI时代一样值得被尊重,一样应该受到法律的保护。”
AI是社会进步的工具,不应成为侵权不法行为的助手 [11] 。
2024年4月23日,北京互联网法院对全国首例“AI声音侵权案”进行一审宣判,判决被告方侵犯了原告配音师殷某的声音权益,并要求被告向原告书面赔礼道歉并赔偿25万元。
殷某以配音为职业,曾录制多部有声作品。殷某意外发现自己的声音被AI化后,在某App上以“某某小璇”名义出售。于是殷某以被告行为侵害其声音权为由,将相关5名侵权方告上法庭。5名被告认为自己拥有殷某作品的著作权,均否认侵犯著作权。原告殷某在陈述中认为,本案诉请的事实依据为人格权侵权,而非著作权侵权,不应以被告有原告关于著作权的授权,想当然地推定被告有原告人格权的授权。
自然人声音以声纹、音色、频率为区分,具有独特性、唯一性、稳定性特点,能够引发一般人产生与该自然人有关的思想或感情活动,可以对外展示个人的行为和身份。自然人声音的可识别性是指在他人反复多次或长期聆听的基础上,通过该声音特征能识别出特定的自然人。利用人工智能合成的声音,如果能使一般社会公众或者相关领域的公众根据其音色、语调和发音风格关联到该自然人,可以认定为具有可识别性。
在本案中,因被告三某软件公司系仅使用原告个人声音开发涉案文本转语音产品,而且经当庭勘验,该AI声音与原告的音色、语调、发音风格等具有高度一致性,能够引起一般人产生与原告有关的思想或感情活动,能够将该声音联系到原告本人,进而识别出原告的主体身份。因此,原告声音权益及于涉案AI声音。
最终法院认为,声音作为一种人格权益,具有人身专属性,任何自然人的声音均应受到法律的保护,对录音制品的授权并不意味着对声音的授权,未经许可,擅自使用、许可他人使用录音制品中的声音,均构成侵权。
2023年5月,李昀锴起诉被告刘某侵害作品署名权、信息网络传播权纠纷一案在北京互联网法院立案。
2023年2月24日,原告使用开源软件Stable Diffusion通过输入提示词的方式生成涉案图片,后将该图片以“春风送来了温柔”为名发布在小红书平台。原告发现,百家号账号“我是云开日出”在2023年3月2日发布了名为《三月的爱情,在桃花里》的文章,该文章配图使用了涉案图片。被告未获得原告的许可且截去了原告在小红书平台的署名水印,使得相关用户误认为被告为该作品的作者,严重侵犯了原告享有的署名权及信息网络传播权。被告应当赔偿原告的经济损失并进行赔礼道歉以消除影响。综上,原告特依法向法院提起诉讼,请求法院判如所请。
2023年11月,北京互联网法院就该AI生成图片著作权案进行判罚((2023)京0491民初11279号),为后续AIGC案件提供了判例。
法院主审法官在判决中强调,“人们利用人工智能模型生成图片时,不存在两个主体之间确定创作者的问题,本质上,仍然是人利用工具进行创作,即整个创作过程中进行智力投入的是人而非人工智能模型。只有正确地适用著作权制度,以妥当的法律手段,鼓励更多的人用最新的工具去创作,才能更有利于作品的创作和人工智能技术的发展。在这种背景和技术现实下,人工智能生成图片,只要能体现出人的独创性智力投入,就应当被认定为作品,受到著作权法保护。”
在此侵权判罚中,明确了具备“独创性”要素的AI绘画图片内容,体现了人的独创性智力投入,应当被认定为作品,受到著作权法的保护。总而言之,由当前国内已有案件判例可获得如下推论:如果AIGC的作品中没有人类的参与,视作人类未进行独创性创作,生成的作品无版权。法院一般需要原被告进行举证,进一步证明AI作品中人类的参与度及其价值,进而判断人类是否拥有版权。
无独有偶,在时隔半年之后的2024年6月20日,北京互联网法院在线审理了4起插画师起诉AI绘画软件X平台的著作权侵权案件。
4起案件的原告均为插画师,在X平台注册并长期分享其创作的绘画作品。4起案件的原告发现,一些用户利用X平台开发的AI绘画软件生成了带有明显模仿原告作品痕迹的图片。
在该案中,原告提出以下3点主张:
□ 被告抓取原告作品输入AI模型的行为,侵犯了原告的复制权;
□ 涉案AI绘画软件提供原告作品与其他图片杂糅、混合产生新图的技术服务,侵犯了原告的改编权;
□ 被告行为还侵犯了原告的作品作为物料训练AI的权利。涉案AI绘画软件习得原告作品的绘画风格后,“一键生成”的大批量图片可以轻松替代原告一笔一画绘制的作品,残酷挤压了原告依托其作品获得收益的空间,对原告作品未来的市场造成毁灭性打击。
原告认为:被告应当停止对原告著作权的侵害,包括但不限于停止在AI模型中使用原告作品、剔除模型中与原告作品相关的学习成果等,并赔礼道歉和赔偿原告的经济损失。
本案尚在审理中,但是本案中所涉及的法律问题涉及AIGC模型底层训练集来源以及由此导致的侵权问题,是所有开发大模型及相关微调模型的团队不能忽视的问题。众所周知,语料、图像、音视频等数据集是决定AIGC大模型性能与质量的关键,很多企业习惯于“免费”爬取,这在商业化中会遭遇版权问题的巨大挑战。
原则上,我们应该通过保护艺术家的作品版权来保留人类艺术创作的动力。保护作品版权必须明确版权归属,但在AI绘画中很难明确版权。首先,绘画大模型使用了数十亿幅图片样本,难以确定哪些图片拥有版权;其次,即便鉴别出了版权图片,大模型在学习时,其权重参数是否使用了版权图片,使用到了什么程度,在生成图片时又贡献了多少,全部都无法明确;最后,AI绘画是人类引导与模型赋能联合完成的作品,难以确定人类在涉嫌侵犯版权的图片中的贡献以及动机。
在知识产权法律实践中,判断是否构成侵权,主要适用“实质相同+接触”的原则 [6] 。AI绘画模型从全人类艺术家作品中学习画法、画风和技巧,然后删除训练集只留下预训练模型框架与参数。使用预训练模型生成图片时,凝聚了全人类画师的技法与艺术思想,很难认定其接触并抄袭了哪一位个体画家的思想和表达。现行《中华人民共和国著作权法》只保护作品的表达而不保护作品的思想,表达是思想的载体,思想是表达的内涵,二者也很难分辨清楚。
因而,即便我们觉得某幅AI图片与版权图片相似度高达90%,人类画师也很难向AI画师维权。
以前,我们通过写信、签名等方式来确认真实性。后来,校网贷发明了举着身份证拍脸的照片验证模型。现在,各大银行采用远程视频验证,需要用户眨眨眼、摇摇头,防止有人拿着照片造假,认为通过视频动态验证即可认定为本人。然而,在AI视频欺诈面前,这些方式全部失效了。
“在互联网上,没有人知道你是一条狗”。这句话来自1993年的《纽约客》,却特别适合描述当前的互联网网红美女乱象。
乔碧萝是一名主播,是一位90后声优网红,在斗鱼直播间中用卡通少女遮盖面部让自己不露脸,但她会应粉丝要求,偶尔发布自己的美女形象照片。她在粉丝心目中成功塑造了一位声音甜美、长相可爱又美丽、温柔体贴的美少女形象,吸引了不少粉丝进行大额打赏。2019年7月25日,因其在进行网络直播的过程中,遮盖脸部的特效失效,直播中的乔碧萝竟然是一位大妈形象,“萝莉变大妈”从而成为网络名梗。该账户被斗鱼封禁,还被中国演出行业协会网络表演(网络直播)分会列入黑名单,在行业内禁止注册和直播,封禁期限为5年。
简单遮挡面部相比今天的数字人直播技术已经落后了,如今的视频换脸、自动美颜、形象调节等技术可以假乱真,所有主播都可以成为任意类型的“美女”。由此,抖音、快手、小红书上的大美女、朋友圈中的盛世美颜,让互联网再无“真人”。单纯的发布和观看并无问题,但诱导网友打赏就会涉嫌欺诈。但这些与AI生成的假视频造成的恶劣影响相比简直是小菜一碟。
AI技术的快速进步和平民化使得大量由深度伪造(Deepfake)技术制作的虚假视频在网络上流传。Deepfake由Deep Learning(深度学习)和Fake(伪造)混合而成,指基于AI技术生成或合成图像、音频或视频。
注意: 这里的Deepfake指深度伪造研究或技术领域,Deepfakes是Deepfake中的一种技术。
由于政治家、明星、网红及其他名人在网络上留下了大量公开的影像资料,为造假者使用这些资料训练AI提供了便利性,并且公众人物的影响力更显著,因此他们经常成为AI造假的受害者。例如,在2022年3月俄乌战争期间,有人利用乌克兰总统泽连斯基的信息制作并发布了虚假的“泽连斯基宣布投降”的深度伪造视频。在该视频中,泽连斯基让乌克兰士兵放下武器并放弃对俄罗斯的战斗,难辨真假,在社交媒体上引发疯传,随后被揭穿并删除。泽连斯基本人也发布了一段声明视频,重申决不投降。
视频深伪技术一般采用换脸(Face Swapping)、面部动作重现(Face Reenactment)和音频驱动3种方法,具体如下:
□ 换脸:针对已有视频进行面部局部编辑,包括替换面部、更改表情、更改面部生物特征等。让视频中说话的人变成拟伪造的人。
□ 面部动作重现:针对已有视频进行面部表情、口唇运动进行编辑,让视频中的人说假话,这些话在源视频中本来不存在。
□ 音频驱动:不需要已有视频,直接用音频驱动生成视频。比如流行的让图片说话,只需要一张图片,给定伪造的音频(可以通过声音克隆实现任意自然音频),即可在伪造音频的驱动下获得音唇一致、表情自然、难以辨别的自然人说话效果。
既然视频深伪技术如此成熟,让人防不胜防,难道我们对视频造假就无能为力了吗?
虽然换脸与面部动作重现技术已经足以以假乱真,但是在已有源视频的基础上进行替换面部、更改表情等操作,需要将篡改的区域与未经过编辑的原始图像区域进行融合,融合过程会增加篡改区域与原图像区域之间的像素统计特征、模糊程度、JPEG压缩次数等的不连续性。不连续性是此类伪造视频的共同特征,可被检测模型识别 [12] 。
与对现有视频进行人脸替换或表情属性篡改的造假方式相比,音频驱动深度伪造技术直接生成视频,没有将篡改区域和原图像区域进行融合,因此也不存在上面提到的不连续性,导致难以进行检测并证伪。
目前,视频检测证伪主要针对换脸、面部重现两种伪造方法。在伪造视频检测技术使用的主流数据集Face Forensics ++中,可检测4种换脸、面部动作重现相关的伪造技术(Deepfake、Face Swaping、Face2Face、Neural Textures),未包含音频驱动相关的检测技术。因此,视频检测难以应对音频驱动这一新视频深度伪造技术。
在国内,盜取公民身份信息之后通过伪造视频进行电信诈骗的案例屡见不鲜,给受害者带来巨大的损失。涉案金额最大的一起当属著名的香港AI“深伪”诈骗案。该案涉及金额达2亿港元,不仅是香港历史上损失最惨重的诈骗案例,也是首次涉及AI“多人换脸”的诈骗案。
据报道,骗子先锁定香港一个跨国公司,假冒英国总公司的首席财务官,利用伪冒短信指示香港下属财务人员开多人视频会议进行秘密交易。
诈骗者通过公司的YouTube视频和从其他公开渠道获取的媒体资料,成功地仿造了英国公司高层管理人员的形象和声音,再利用Deepfake技术制作伪冒视频,造成多人参与视频会议的效果,然而会议内只有参加的财务人员一个人为“真人”。
香港下属财务人员所看到的“财务官”及其他“财务职员”片段,均是该公司的真实公开影片,基于深伪技术更改口型及说话内容。同时,在骗子的精心准备下,“领导”、参与者动作语气及聊天内容,让香港下属难以辨别真伪。何况作为下属,第一反应是服从命令,难以去质疑、询问,导致该诈骗行为几乎毫无破绽。
为了让香港下属财务人员深信是真的,还有其他人被邀请参加视频会,骗子利用聊天信息、邮件甚至“单对单”的视频沟通形式来加深可信性。
视频是预制的,会议内容主要是“领导”向香港下属职员下达命令,在此期间,下属职员没有机会与“领导”进行交流,在整个视频会议中,职员仅被要求作一次简短的自我介绍。会后,骗子结束了会议并在ICQ软件中下达了转账命令。
于是,就在会议过程中,这名香港职员被对方命令马上要进行转账交易,通过前后15次转账,共转走2亿港元。
在巨额资金转移后一周,香港公司跟英国总公司确认,发现居然没有这个秘密交易,赶紧向香港警方报案。截至2024年7月,案件仍在调查之中,未逮捕任何嫌疑人。