中国移动与南京大学联手，打造高保真2D数字人客服新体验！

发布时间：2024-12-09 13:19 来源：ITBEAR 作者：顾雨柔

近日，中国移动携手南京大学团队，在人工智能领域取得了一项重要突破，成功研发出了一种高保真2D数字人说话驱动系统。这一创新旨在优化客户服务体验，降低运营成本，并为智能客服、教育培训及广告营销等多个领域带来革新。

作为全球用户规模最大的通信运营商，中国移动面临着巨大的客户服务需求。尽管智能语音客服已经广泛应用于日常业务中，但其提供的服务体验仍无法与人工客服的面对面、个性化服务相提并论。为了改善这一现状，中国移动九天视觉团队与南京大学邰颖团队携手，共同研发了这款高保真2D数字人说话驱动系统。

该系统能够根据目标人物的照片或视频以及任意音频，生成与之同步的说话视频流。生成的数字人形象逼真，表情姿态自然，且具备较高的实时性。这一技术不仅实现了人物数字替身的构建，还与语言大模型、音频合成能力进行了有机整合，为用户提供了更为真实、自然的交互体验。

在技术攻坚和方案创新方面，该系统取得了显著的成果。首先，在实时播报口型生成技术上，该系统达到了学术界的领先水平，支持中英文数字人口型驱动，实时性能达到了30毫秒每帧。其次，通过研发二阶段学习框架，系统将数字人说话驱动过程拆解为从音频到口型系数、从口型系数到生成人像两部分，降低了学习难度，提升了生成效果。最后，该系统还引入了情绪引导学习模块，支持正常、微笑、惊讶、愤怒、恐惧、悲伤等七种主流情绪控制生成能力，使生成的数字人具备更加丰富的情感表达能力。

在实际应用中，该系统已经实现了端到端的二阶段30帧每秒实时生成性能，并支持512×512人脸区域生成。同时，该系统还具备高兴、悲伤等七种主流情绪控制生成能力，为用户带来了更加丰富的视觉体验。在评测集VoxCeleb指标方面，该技术的口型准确性LMD达到了4.3，生成自然度FID达到了11.1，均表现出色。

据中国移动官方介绍，这一研发成果的应用前景广阔。它不仅有效降低了创作门槛，提升了生成人物的视觉质量，还为5G新通话、和留言小秘书等品牌业务的拓展提供了有力支持。未来，随着技术的不断成熟和应用场景的不断拓展，这一系统有望为更多领域带来创新和变革。