[克里斯]阿里巴巴新人工智能系统“EMO”根据照片创建逼真的说唱视频-借春秋官网

阿里巴巴智能计算研究院的研究人员开发了一种名为“EMO”的新型人工智能系统，它是“Emote Portrait Alive”的缩写，可以将单张肖像照片动画化，并生成人物说话或唱歌的视频，非常逼真。

arXiv 上发表的一篇研究论文描述了该系统，它能够创建流畅且富有表现力的面部动作和头部姿势，与所提供的音轨的细微差别紧密匹配。

这代表了音频驱动的头部说话视频生成的重大进步，这个领域多年来一直对人工智能研究人员提出挑战。

图片来源： humanaigc.github.io

“传统技术往往无法捕捉人类表情的全部光谱和个人面部风格的独特性，”主要作者田林瑞在论文中说。

“为了解决这些问题，我们提出了 EMO，这是一种利用直接音频到视频合成方法的新颖框架，绕过了对中间 3D 模型或面部标志的需求。”

直接将音频转换为视频

EMO 系统采用了一种称为扩散模型的人工智能技术，该技术显示出生成逼真合成图像的巨大能力。

研究人员在包含超过 250 小时的头部说话视频的数据集上训练了模型，这些视频来自演讲、电影、电视节目和歌唱表演。

与之前依赖 3D 面部模型或混合形状来近似面部运动的方法不同，EMO 直接将音频波形转换为视频帧。

这使得它能够捕捉与自然语音相关的微妙动作和特定于身份的怪癖。

就在？
这是我见过的最令人惊叹的音频视频。
它被称为 EMO：表情肖像活着 pic.twitter.com/3b1AQMzPYu
— 时间旅行者 Stelfie (@StelfieTT) 2024 年 2 月 28 日

根据论文中描述的实验，EMO 在衡量视频质量、身份保存和表现力的指标方面显着优于现有的最先进方法。

研究人员还进行了一项用户研究，发现 EMO 生成的视频比其他系统生成的视频更自然、更富有情感。

除了对话视频之外，EMO 还可以制作与人声同步的适当嘴型和令人回味的面部表情的歌唱肖像动画。

该系统支持根据输入音频的长度生成任意持续时间的视频。

论文指出：“实验结果表明，EMO 不仅能够制作令人信服的演讲视频，还能够制作各种风格的歌唱视频，在表现力和真实感方面显着优于现有的最先进方法。”

图片来源： humanaigc.github.io

EMO 研究暗示，未来可以仅从照片和音频剪辑合成个性化视频内容。

然而，道德方面的担忧仍然存在，即可能滥用此类技术来未经同意冒充他人或传播错误信息。

研究人员表示，他们计划探索检测合成视频的方法。