一分为二的荧屏画面,长相一模一样的主持人流畅对话——在今年全国两会报道中,中央广播电视总台首个拥有超自然语音、超自然表情的超仿真主播“AI王冠”正式投入使用。真人与虚拟人同屏播报,为两会报道注入科技创新力。虚拟数字人走红网络的背后,深度合成技术功不可没。
日前,清华大学人工智能研究院等联合发布《深度合成十大趋势报告(2022)》。数据显示,在社交媒体、音视频网站等平台上,2021年新发布的深度合成视频数量较2017年已增长10倍以上。深度合成内容在多领域落地,迎来爆发式增长。何为深度合成技术?这项技术正如何影响着我们的生活?《科技周刊》记者特为此采访相关领域专家。
从图像合成到深度合成
高度逼真的人脸合成难在哪里
“谈起图像合成技术,很多人都不陌生。其实深度合成技术就是从图像合成技术发展而来。”东南大学网络空间安全学院副教授宋宇波告诉记者,图像合成技术目前已经发展得非常成熟,其中包括基于图像主体修改的方法和基于痕迹掩盖的后处理方法,如我们常用的PS技术等。随着人工智能的快速发展,人工智能技术和图像合成技术逐步结合。源于人工智能系统生成对抗网络(GAN)不断进步,深度合成技术应运而生,并在很短时间内发展到惊人地步。
“典型的深度合成案例包括人脸替换、人脸再现、人脸合成和语音合成四种形式。”宋宇波介绍,人脸替换就是大家俗称的“换脸”,即将某个人的脸部特征复制到另一个人的脸上,从而覆盖目标人物的面部;人脸再现则是利用深度合成技术改变人的面部特征,从而操纵目标对象的脸部表情;人脸合成可以创建全新的人脸图像,而这些随机生成的人脸很多都可以媲美真实的人脸图像,甚至代替一些真实肖像的使用;语音合成则是基于设计创建的特定声音模型,不仅可以将文字转化成声音,而且可以转化为接近真人语调和节奏的声音。
那么,如何才能实现高度逼真的人脸合成呢?“深度合成技术的难点主要有两个方面,一方面是如何获取精细的三维人脸模型、如何精确地跟踪源人脸面部的刚性和非刚性运动以及如何将提取的参数映射到目标人脸以实现表情迁移;另一方面则是如何控制生成图像的内容以及如何提高生成图像的分辨率。”宋宇波表示,尽管人脸合成领域方法众多,但就总体而言,三维人脸技术以及生成对抗网络技术占据重要地位。在人脸合成领域中(尤其是人脸动作或身份的合成),主要通过建立人脸的三维模型并对其形变或改变身份参数,渲染出合成的人脸图像;而生成对抗网络凭借能够生成多样的、逼真图像的能力成为近年来的研究热点,被广泛应用于人脸图像处理的各类任务。它也是人脸合成技术中持续输出可控制的、高分辨率的逼真人脸图像的重要一环。
应用场景趋于多元成熟
“深度合成”成元宇宙发展关键技术
自2019年开始,基于深度合成技术的各类应用火爆社交网络。目前,这项技术在影视制作、广告营销、社交娱乐等众多领域落地生根。公开数据显示,2020年6月至2021年5月,共有32412位虚拟主播在哔哩哔哩开播,同比增长40%。一个月前,北京冬奥会自由式滑雪女子大跳台决赛中,中国队选手谷爱凌发挥出色逆转夺冠,全球首个手语AI 合成主播“小聪”用手语解说了这个激动人心的夺冠时刻,帮助听障人士更好地享受数字化生活。此外,越来越多的企业机构开始利用深度合成技术提供面向公众的产品和服务,涵盖图像、视频、音频、文本等多个领域。例如作为人机交互中重要一环的语音合成,被广泛应用于智能客服、语音导航、有声读物、语音助手等场景。
随着深度合成技术的不断发展,对深度学习算法的要求也越来越高。这些算法的不断优化将促使深度学习技术应用于更多不同的领域。宋宇波举例解释,计算机科学领域,通过深度学习技术可以建立起比传统机器学习更深层次的模型,从而具有对文字、图像和声音等数据更强的处理与学习能力;在实时应用领域,随着深度学习算法、嵌入式计算硬件、物联网的不断发展,以深度学习为主要手段的人工智能技术将在嵌入式应用领域得到更加广泛的应用,促使深层神经网络轻量化设计,深层神经网络与网络加速器的协同设计快速发展。
尽管发展迅猛,但深度合成技术这个“魔法盒”才刚刚被打开。伴随着元宇宙等新商业思维的提出,深度合成技术或将重新定义虚拟数字化空间,为智能化、视觉化、场景化、虚拟化的新交往常态提供技术支撑。深度合成技术可以用于自动生成文本、语音、图像、视频等各种数字内容,已成为了当前元宇宙发展的关键技术。
今年初,国家网信办公布《互联网信息服务深度合成管理规定(征求意见稿)》,对作为元宇宙基石的深度合成技术作出了一系列较为明确的规定和指引。按照该管理规定的定义,AI语音、NFT生成艺术、虚拟演唱会、全息人像投影、虚拟数字人、AR购物等元宇宙的重要组成部分都属于深度合成技术的具体应用。“深度合成技术逐渐成熟并进入商业化应用阶段,其巨大的经济价值将更为凸显。”宋宇波说。
未来,深度合成技术还将有怎样的发展趋势?业内某科技公司有关负责人告诉《科技周刊》记者,在多模态生成方面,未来的应用场景将覆盖图像、语音、文本等更多样化模态,会从单一模态内容生成逐渐拓展为跨模态或多模态的内容合成,如虚拟数字人中的语音或文本驱动视频生成等场景、高清化人像生成、通用场景图像生成和实时生成技术等方面。“在不久的将来,我们或许可以看到支持4K、8K模式的高清化人像生成。但必须要指出的是,深度合成技术将如何支持沉浸感更好的实时通信体验,需要技术继续攻关。比如,在低带宽或视频压缩的情况下如何提高用户体验,是深度合成技术下一步需要解决的问题。”
机遇与风险并存
虚实交界处期待多维度治理
换脸特效、老照片修复、辅助动画和游戏设计……深度合成技术为众多全新场景提供了技术可能,支撑着实现更多虚实交互空间。然而,技术“平民化”的背后,一系列负面风险也随之而来。仅需要少量音视频样本数据,利用简易的合成工具,便可以解构“眼见为实”的认知论权威。实际上,利用深度合成技术伪造虚假音视频,从而进行诈骗勒索的违法行为和案例报道已屡见不鲜。
“深度合成技术所创造的‘现实’并不是虚拟现实,而是一种新的现实类型,因此必须、也已经在现行的法律规制之下。”南京师范大学法学院副教授、中国法治现代化研究院研究员杨建表示,对于深度合成技术所造就的现实和所形成的社会关系来说,主要风险之一在于该技术应用能够制造以假乱真的虚假现实,可能左右、误导公众的认知与判断;而规制这类风险行为的困难在于,它与典型的违法行为追责模式不相对称,以致传统的行政、司法机制无法及时发挥管控、威慑、确权、止争等作用。
为规避风险,我国正积极探寻有效的治理机制。2019年11月起先后出台的《网络音视频信息服务管理规定》、《网络信息内容生态治理规定》、《中华人民共和国民法典》、《互联网信息服务算法推荐管理规定》,均对生成合成类内容等提出了不同程度的监管要求。
新的行为模式需要新的规制机制,同时也期待政府、社会和公民等多维度治理。“在智能社会的法律构建中,特别要强调共治、共建、共享的理念。”杨建认为,对于深度合成技术来说,目前有效的方案之一是确立深度合成技术应用的事前备案制度、保证金制度,以确保事先管控的可能性,确保可公开、可追查、可审核。此外,在事后的惩罚性赔偿、准入资格剥夺机制方面,必须确保有效的威慑、责任追究与权利维护的可行性。业内某科技公司有关负责人表示,深度合成技术与深度伪造检测技术相辅相成,互相促进。更高清、自然、逼真的合成技术也将会不断地促进深度伪造检测技术的发展,辅助负面虚假内容治理。