在北京市大兴区,一场聚焦全球化与人工智能的盛会——2024T-EDGE创新大会暨钛媒体财经年会于12月6日至7日成功举办。此次大会以“全力拥抱全球化,全力投入AI”为主题,汇聚了全球科技和商业领域的顶尖领袖,共同探索企业全球化增长的新格局、新趋势,以及AI对全球各行业产生的深远影响。
在影视制作领域,视频生成一直是一项极具挑战性的任务,特别是人物的面部、嘴型、表情和肢体动作的精准捕捉。即便是微小的动作位移或差异,都可能导致画面失真。要达到好莱坞级别的影视效果,往往需要投入大量的人力和财力。然而,随着生成式AI技术的迅猛发展,这一难题正在被逐步攻克。
在2023年8月,知名视觉效果工作室和AI技术初创公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI视效产品LipDub,这款产品专为解决影视配音中口型不同步的问题而设计。据透露,LipDub将有助于好莱坞电影公司和广告商在提升观众收视率和参与度方面实现质的飞跃。
MARZ的AI研究团队由世界知名的特拉维夫大学计算机科学系教授Danny Cohen-Or领导,他同时也是ACM研究员和Isaias Nizri视觉计算主席。Cohen-Or教授与他的长期合作者、西蒙弗雷泽大学助理教授Ali Mahdavi-Amiri共同领导了MARZ的AI研究。他们此前已成功开展了Vanity AI的研究,这是MARZ开发的第一个AI解决方案,能够利用AI技术对人物面部皱纹进行美妆处理,达到年轻化的效果。Vanity AI自2023年1月推出以来,已在45部好莱坞作品中得到应用。
在12月7日的演讲中,LipDub的CEO Jonathan Bronfman详细阐述了LipDub的技术实现原理,并展示了该技术在不同行业和场景中的应用解决方案。Bronfman指出,当前生成式AI技术已经发展到文生图、图生视频的阶段。对于营销人员或内容创作者而言,借助生成式AI技术,他们几乎可以在10分钟内将某个想法转化为视频,从而快速验证视频效果。
Bronfman认为,视频内容生成的主要挑战在于速度慢和成本高。然而,随着视频内容生成效率的提升,用户现在可以在几分钟内生成一段视频,并且同一段视频素材可以反复使用。这极大地降低了视频制作的门槛,使得更多人能够参与到视频内容的创作中来。
LipDub的口形同步技术(Lip Sync)采用了三种方案:一是直接对视频进行翻译,如将英文演讲视频翻译成中文,并调整口型以匹配中文发音;二是通过定制虚拟形象进行对话调整,这在广告场景中尤为有用,因为品牌在全球各地可能有不同的产品名称表达,但希望使用同一支商业广告;三是通过一段语料为角色量身定制对话,即针对同一件事物,根据不同的受众群体生成不同的个性化表达。
Bronfman强调,好莱坞影视画面的要求不仅仅是口型同步,还需要动态且富有饱满情绪的表演。因此,LipDub在跨语言转换过程中,不仅要确保口型同步,还要能够恰当地用另一种语言传递源语言中所表达的情感。为了实现这一目标,LipDub采用了Language Agnostic模型,以实现跨语言无关特征学习。
Bronfman在演讲中还透露,MARZ源自Monsters Aliens Robot Zombies的英文缩写,是一家专门制作视觉特效的工作室,成立于2018年。他们曾为《蚁人》、《惊奇少女》等好莱坞影片和影视剧提供特效,并与迪士尼、奈飞、Amazon Prime等多家流媒体平台建立了合作关系。在2019年,MARZ明确了AI可以加速发展,为他们提供在成本、时间和规模上的竞争力。
实际上,MARZ开发的第一款AI产品并不是LipDub,而是2D美妆产品Vanity AI。该产品可以通过创建一张单帧图片,然后将其他底片插入使其鲜活起来。MARZ团队一开始就非常擅长对人物面部表情的刻画。在注意到奈飞平台上韩剧《鱿鱼游戏》在欧美地区爆火但配音口型不匹配的问题后,他们开始思考如何让口型同步起来,提升观众的观看体验。
经过不断努力,MARZ将口型同步技术用在了好莱坞电影配音中,并一直引领着这一技术的发展。在演讲的示例中,可以看到他们将佛兰芒语的电影翻译成英文,并使用了LipDub技术来实现口型同步。在为好莱坞电影制作过程中,他们还解决了大量技术难点,如摆姿势、换镜头、换灯光等,以实现4K高分辨率。
除了好莱坞电影,LipDub还扩展到了广告、在线教育、企业宣传片等多个领域,并专注于对视频质量有高要求的客户群体。在在线教育场景中,LipDub营造出了一种真实的听众体验,让人感觉就像是说话人自己的语言一样。
Bronfman还展示了LipDub的两种应用模式:初级模式和高级模式。在高级模式中,开发人员需要先对项目进行命名并选择源语言和目标语言,然后上传视频并添加训练素材。经过自动检测打标后,上传音频与对应角色进行匹配,最终生成视频。而在初级模式中,用户只需上传视频并进行预处理后,点击创建配音并选择自己的音频素材或内置翻译功能,即可一键生成配音效果。
最后,Bronfman展示了LipDub正在开发的新功能——替换对话框(Replace Dialogue)。这一功能类似于文本到语音的转换,但如果输出的结果不符合预期怎么办?比如用户想修改一个单词,但跨语言转换会有细微差别。为了确保能够恰当地用另一种语言传递情感,LipDub正在不断优化这一功能。