忘了 DeepFakes 吧,Deep Video Portraits 的“换脸术”好到可怕

下一篇文章

优达学城联手谷歌提供免费职业培训课程

今年早些时候,奇怪、诡异的 “DeepFakes”视频 ——视频中人物的面孔被替换成了明星脸——在几乎所有地方敲响了警钟。如果你认为这些东西已经因为人们觉得 不道德 或者不能令人信服而成为过去式,那么现在告诉你,“换脸术”又回来了,而且这次得到了“Deep Video Portraits”的加持。

在这里要说清楚的是,我不想把这项有趣的研究跟那种把 AV 女优换成明星脸的低级做法混为一谈。事实上,两者是对基于深度学习的图像处理技术的不同应用。不过,“换脸术”显然会继续存在,而且只会越来越精湛——因此,我们最好跟上它的步伐,这样我们才不会被打一个措手不及。

Deep Video Portraits 是研究人员提交给今年 8 月 SIGGRAPH 大会审议的一篇论文的标题;论文描述了一种经过改进的技术,可利用一个人的脸再现另一人脸部的动作、面部表情和说话口型。下面是一个简单的示例:

这项技术的特殊之处在于它的全面性,Deep Video Portraits 可以通过一段目标人物的视频(在这里就是奥巴马总统),来学习构成脸部、眉毛、嘴角和背景等的要素以及它们的正常运动是什么样子。

然后,通过仔细追踪源视频中的相同标志物,Deep Video Portraits 就可以对总统的脸部进行必要的扭曲,将源视频中人物的动作和表情用作那些视觉信息的来源。

因此,不仅是目标人物的身体和脸部会像源视频中那样运动,而且目标人物可以用自己的表情来捕捉和重现源视频中表情的每一个细微之处!如果仔细观察,你就会发现甚至连人物背后的阴影(如果有的话)也是准确的。

研究人员对 Deep Video Portraits 的效果进行了检验,他们拿一个人在说话的真实视频跟由深度学习网络基于前者生成的视频做了对比。“我们生成的结果与真实的视频几乎没有区别。”团队中的一位研究人员说道。确实如此。

所以,尽管你可以利用这项技术让视频中的任何人说出你想说的话——应该指出的是,用的是你的声音——但它其实也有实际的用武之地。比如,这项技术可以用来改进电影或电视节目的配音,办法就是同步配音演员和人物角色的表情。

不过,如果目标人物在视频中的动作或表情跟你想要的效果相差太远,你是无法强人所难的。举例来说,如果目标人物一直苦着脸,那系统就没有办法合成出一个大笑脸(但它可能会做一番尝试,然后得到可笑的失败结果)。自然而然,这套系统还存在各种小错误和矫揉造作。因此,从目前来看,我们还不太能够利用它来胡闹。

不过,正如你可以从 Deep Video Portraits 跟之前“换脸术”的对比中看出来的,这项技术正在快速进步。今年模型和去年模型的效果差异是显而易见的,而 2019 年还会取得更大的进步。当初那段老鹰试图抓走孩子的伪造视频大肆流传时,我就 撰文 指出这一切都会发生。

“我知道这当中的道德影响。”论文共同作者贾斯特斯•泰斯(Justus Theis)在 接受 The Register 采访时说 ,“那也是我们发布研究成果的一个原因。我认为,让人们了解图像处理技术的可能性是非常重要的。”

如果你曾经想过创办一家视频取证公司,现在可能是时候了,或许开发一个深度学习系统来检测这些由深度学习系统生成的图像能够助你获得成功。

参与 Deep Video Portraits 项目的研究人员来自 Technicolor 集团、斯坦福大学、巴斯大学、马克斯-普朗克信息学研究所以及慕尼黑技术大学,你可以在 Arxiv 阅读 他们的论文

翻译:王灿均(@何无鱼

Forget DeepFakes, Deep Video Portraits are way better (and worse)