三星新 AI 系统只用一张图像就能生成换脸视频

下一篇文章

ARM 内部备忘录显示将暂停与华为合作

机器学习研究人员开发了一套系统,它可以利用一个人脸部的单帧画面呈现出逼真的动作。有了这样的系统,我们不仅可以对照片进行动画化处理,而且还能让那些画作 “活” 过来。该系统的效果还不完美,但它做出的成果——跟如今大多数人工智能作品一样——既怪异又令人着迷。

三星人工智能研究中心(Samsung AI Center)在其发表的论文中描述了这个系统,该论文已经上传到预印本网站 Arxiv。该系统使用了新的方法,将源面孔(即人在讲话时的头部特写)上的面部标志物与目标面孔的数据对应起来,从而让目标面孔做出源面孔的动作。

这本身并不新鲜,而且这也是人工智能领域目前所面临的合成图像问题的组成部分(对于这个问题,我们最近在伯克利举行的 “Robotics + AI” 活动上进行过有趣的探讨)。我们现在已经可以在一段视频中生成一张面孔,让它模仿另一张面孔在说话或观望时的神情。但那些模型大多需要很多数据,例如对一两分钟的视频数据进行解析。

然而,三星驻莫斯科的研究人员在他们的新论文中展示,只使用单张人脸图像,他们就能生成让目标面孔转动、说话或做表情的视频,其效果虽远非完美无瑕,却具有令人信服的表现力。

为了做到这一点,这套系统预先使用大量数据馈入面部标志物识别过程,从而让模型能够非常高效地在目标面孔中找到对应于源面孔的部分。系统掌握的数据越多,效果会越好,但它也可以通过一张图像来生成视频(这被称为单张图像学习),而且效果也说得过去。有了这样的技术,我们就有可能使用爱因斯坦或玛丽莲·梦露的照片,乃至于《蒙娜丽莎》这幅画作,让图像中的人物像真人那样说话和做出动作。

在上面这个例子中,研究人员使用 3 个不同的源视频对《蒙娜丽莎》进行了动画化处理。你可以看到,最终的成果各自都存在非常大的差异,在人物的面部结构和行为举止上都是如此。

而且,这个系统还使用了所谓的生成对抗网络(GAN),也就是让两个模型相互对抗,一个模型试图欺骗另一个模型,让后者认为它生成的东西是 “真的”。通过这些方法,最终生成的结果达到了 “创作者” 模型设定的真实度标准,而 “鉴别者” 模型必须,比如说,90% 确定这是真正的人脸,整个过程才能继续下去。

在研究人员提供的其他例子中,生成结果的质量和真假辨识度差异很大。有些例子使用的源视频来自于有线电视新闻,结果生成出来的目标视频也重现了源视频底部的滚动新闻条,用乱码进行了填充。如果你有心寻找的话,人工智能作品惯有的怪异到处可见。

话虽如此,这个系统能够达到这样的效果是非常了不起的。不过,请注意一点,它现在只适用于脸部和上半身,你还不能让蒙娜丽莎打响指或是跳舞。不管怎样,我们还没有走到那一步。

翻译:王灿均(@何无鱼

Mona Lisa frown: Machine learning brings old paintings and photos to life