让虚拟歌手为你唱响你想听的任何歌曲,让自己的声音录入车载导航为你指明一路方向……智能语音技术正在诠释我们对于声音的各种天马行空的构想。
11月2日,著名摇滚乐队披头士发布了一首创作于上世纪70年代的“新单曲”,这首歌曲借助人工智能技术,将已故歌手约翰·列侬的声音从40多年前模糊的录音中清晰分离出来,与乐队其他成员完成了一场“跨越时空”的相聚,引得乐迷大呼“感动”。智能语音技术近年来不断发展,一步步融入我们的日常生活,未来还能够给我们带来怎样的期待?
从生活场景窥见智能语音魅力
在南京新街口熙熙攘攘的街道上,你打开导航软件,听到“前方十字路口请直行”的提示音。与以往不同的是,这次耳边导航的声音不是系统语音,而是自己的声音。从明星、虚拟人物都可以在你耳边伴你出行,再到录制自己的声音自制导航语音包,这可能是广大民众对于智能语音技术最具象化的体验之一。
打开“百度地图”App的“语音包”功能,可以选择用3—9句话在5分钟内快速生成个人语音包,也可以录制100句话,生成“现场级高品质语音包”。记者体验发现,录制的语句越多,生成的语音就愈加符合本人的音色,也更加自然,减少了机械感。
“百度为实现语音定制,在AI技术领域独创了风格迁移技术Meitron模型。”百度智能驾驶事业群市场总经理、首席品牌官王翀介绍,该模型能够根据一个人的声音特征,合成出不同的讲话风格、情感模式;甚至能够依靠3—9句话这样少量的样本语音,合成符合一个人讲话特征的音库,从而让个性化语音合成的定制门槛大大降低,用户使用起来操作非常简单、快捷。
从导航语音包到车载助手,随着技术变迁,智能语音给大众带来的新体验也层出不穷。“以前车内主要使用的交互形式是‘命令式交互’,就像是语音遥控器,用户通过语音给车机发出一道指令,它按照你的指令完成任务。但大模型上车后,人车交互的方式会从‘命令式’升级到‘对话式’,用户直接表达需求,系统根据它的分析和理解,调动应用资源进行需求满足。”王翀表示,现在,车辆搭载的智能语音可以帮助用户完成行程规划、景点推荐、娱乐陪伴等功能,从限定领域、限定意图的语音交互,发展成为非限定领域交互的通用人工智能。
在声音中“去芜存菁”或“无中生有”
伴随智能语音技术的发展,其应用场景正在不断丰富,除了在车载场景的应用,智能语音还在智能家居、智能教育、智能可穿戴设备、智能客服、游戏娱乐等多个领域大展拳脚。根据德勤数据2021年发布的行业报告,智能语音应用于日常生活和特定场景的需求比例正在不断扩张,预计2030年消费级应用场景超过710亿元,企业级场景将达到740亿规模。
上海交通大学计算机系教授、思必驰公司联合创始人俞凯介绍,目前智能语音技术有几种典型的落地场景,一是语音识别、语音转写为主的应用,比如会议转写系统,不仅能将语音记录下来,转写为文字,还能分辨出每一个讲者;二是偏语音合成类的应用,比如常见的短视频配音、车载系统、智能家居系统中的语音播报等;三是对话类机器人,是集合语音识别、自然语言理解、语音合成等技术的综合系统。
“近几年,智能语音明显出现大规模应用的场景,比如大型会议、电视节目上的实时字幕系统,同时,智能硬件的语音交互化成为发展趋势,在3—5米的远场场景控制电视、冰箱等智能家电也成为可能。”俞凯说。
在大众的传统认知中,会认为语音识别、语音合成等不同的技术路线象征着不同的技术含量。俞凯表示,不同的技术路线,其实各有需要攻坚克难的“坎儿”,在技术含量上难分伯仲。“以语音识别为例,语音识别是将声音转成文字,普通人说话都会包含文字信息,因此这项技术是提取话语中的共性信息。如果是在高噪声、高回声这样的复杂场景,语音识别就会变得很复杂。而语音合成,则是将文字转为声音,要做到‘无中生有’,这项技术的复杂度在于要做到逼真的、个性化的合成,会需要添加文字之外的‘弦外之音’,包括情感、说话的风格等。”俞凯表示。
而学术界、产业界对于各项技术也有各自的判断标准,对于语音识别,主要看识别文字的错误率、对说话人识别的精准度;而对于语音合成,则依靠听者更为主观的判断,往往会小范围地组织一批测试人员进行主观听测打分,最终将分数平均下来,形成1—5分的MOS(平均主观意见分),不仅判断声音的自然度,也会判断合成声音和采集目标人的相似度。
科研走向产业尚需爬坡过坎
随着我国智能语音产业进入规模化发展阶段,如何加快关键技术研发和产业化,成为业界的关注焦点。“从技术研发到产品落地的过程中,还面临着诸多挑战。”俞凯表示,“第一,在技术研发中,在技术测试时使用的固定场景,和真实使用的场景往往是差别巨大的,比如语音识别,在测试场景中,环境干扰较小,而真实场景中可能有多个人同时说话,且数据量更小,情况更加复杂。第二,我们要关注的不仅是模型或系统本身识别和合成的性能,更要关注它的效率,但如果一味追求效率,技术就会受到很多限制,要兼顾效率和性能,也是一种‘戴着镣铐跳舞’。第三,智能语音系统不仅要求单项技术做得好,更要求系统集成能力好,要让一个对话机器人‘听得懂又说得出’,要涉及语音识别、自然语言理解、语音合成等技术环节,需要连成一个完整的系统,实现平滑的功能输出,同时更要为将来的大规模应用,在效率和成本上探索更优解。”
促进智能语音技术与产业深度融合,离不开政策支持。近年来,我国布局人工智能科技创新,建设18个国家新一代人工智能创新发展试验区和32个开放创新平台,其中,“语言计算国家新一代人工智能开放创新平台”就由位于苏州的思必驰科技股份有限公司承建。江苏作为较早布局人工智能产业的省份,在人工智能基础设施建设方面也铸牢了坚实的基底,2022年,长三角首个国产技术算力中心——南京鲲鹏·昇腾人工智能计算中心落户江北新区,为人工智能企业和创新团队提供算力支持。
面临智能语音技术研发和产业化挑战,建设良好的产业生态是至关重要的。“如果能将语音交互、合成识别、自然语言处理大模型等各种各样的应用场景进行推广,很多问题就能迎刃而解。”俞凯表示,目前生活中还有很多场景没有实现人工智能的运用,但应用潜力巨大,“很多具体场景的落地,还需要政府的支持和推动。比如目前政务一网通办的热线电话,很多时候都需要等待,如果未来政务系统能够采用大模型配合语音识别、语音合成,技术就能更好、更快地服务千家万户。”另外,“如何在法律法规上做好准入,做到创新和安全的平衡,让创新环境变得更加平滑,未来也是大有可为。”