近日,中国移动携手南京大学团队,在人工智能领域取得了一项重要突破,成功研发出了一种高保真2D数字人说话驱动系统。这一创新旨在优化客户服务体验,降低运营成本,并为智能客服、教育培训及广告营销等多个领域带来革新。
作为全球用户规模最大的通信运营商,中国移动面临着巨大的客户服务需求。尽管智能语音客服已经广泛应用于日常业务中,但其提供的服务体验仍无法与人工客服的面对面、个性化服务相提并论。为了改善这一现状,中国移动九天视觉团队与南京大学邰颖团队携手,共同研发了这款高保真2D数字人说话驱动系统。
该系统能够根据目标人物的照片或视频以及任意音频,生成与之同步的说话视频流。生成的数字人形象逼真,表情姿态自然,且具备较高的实时性。这一技术不仅实现了人物数字替身的构建,还与语言大模型、音频合成能力进行了有机整合,为用户提供了更为真实、自然的交互体验。
在技术攻坚和方案创新方面,该系统取得了显著的成果。首先,在实时播报口型生成技术上,该系统达到了学术界的领先水平,支持中英文数字人口型驱动,实时性能达到了30毫秒每帧。其次,通过研发二阶段学习框架,系统将数字人说话驱动过程拆解为从音频到口型系数、从口型系数到生成人像两部分,降低了学习难度,提升了生成效果。最后,该系统还引入了情绪引导学习模块,支持正常、微笑、惊讶、愤怒、恐惧、悲伤等七种主流情绪控制生成能力,使生成的数字人具备更加丰富的情感表达能力。
在实际应用中,该系统已经实现了端到端的二阶段30帧每秒实时生成性能,并支持512×512人脸区域生成。同时,该系统还具备高兴、悲伤等七种主流情绪控制生成能力,为用户带来了更加丰富的视觉体验。在评测集VoxCeleb指标方面,该技术的口型准确性LMD达到了4.3,生成自然度FID达到了11.1,均表现出色。
据中国移动官方介绍,这一研发成果的应用前景广阔。它不仅有效降低了创作门槛,提升了生成人物的视觉质量,还为5G新通话、和留言小秘书等品牌业务的拓展提供了有力支持。未来,随着技术的不断成熟和应用场景的不断拓展,这一系统有望为更多领域带来创新和变革。