北京哪个医院治白癜风效果好 http://pf.39.net/bdfyy/xwdt/来源:量子位
曾造出无数“小视频”、恶搞过多位明星的知名换脸神器Deepfakes,这下被降维打击了。
这个新AI不再是篡改视频了,而是直接把一张静态的照片变成视频。
像这样,一张施瓦辛格:
开始说话了:
饶舌歌手TupacShakur:
也能张嘴了:
只要有一张静态的人脸照片,甭管是谁,在这个新AI的驱动下,任意配上一段语音,就能张嘴说出来。
当然,上面的gif动图没有声音,你可以点开下面视频听听效果,里面有川普、施瓦辛格,还有爱因斯坦。
△总共2M,流量*请放心食用
当然,除了说话之外,唱歌也毫无问题,比如让生活在一百多年前的“俄罗斯妖僧”拉斯普京唱碧昂丝的Halo:
虽然声音和性别不太匹配,但是画面和歌曲组合起来有种莫名的*畜感呢。
你也别以为这个AI只能给照片对口型,它还可以让这个说话的人拥有喜怒哀乐各种情绪。
开心的:
难过的:
炸毛的:
连体态都符合不同情绪的状态,你打开视频听听看,是不是很符合说话的情绪?
这眉眼,这目光,这脸部肌肉,得拯救多少“面瘫”演员啊!
这项研究来自帝国理工学院和三星,研究者们还准备了一套包含24个真假难辨的视频的图灵测试,我们简单测了一下,只能猜对一半左右。
也就是说,这些AI生成的“真假美猴王”,足以蒙骗人类了。
相比此前的斯坦福输入任意文本改变视频人物口型的研究,以及三星的说话换脸,实现难度可以说高了很多。
不少网友闻之色变:
现在是拉斯普京唱Halo,以后会不会整出川普向墨西哥选战啊,感觉怕怕的。
连科技媒体TheVerge都评价说:
这样的研究总让人们担忧,怕它会被用在谣言和*治宣传上,实在是让美国立法者们伤脑筋。当然,你也可以说这种在*治领域的威胁没那么严重,但deepfakes已经确确实实伤害了一些人,尤其是女性,在未经同意的情况下被用来制造了又难堪又羞辱的色情视频。
也有人觉得,等技术普及之后会给做坏事的人掩盖的理由:
等这技术成熟了,川普真的干坏事的小视频出来,他就可以轻描淡写的说这是假视频。
呵呵,真棒,以后坏人们被捏到把柄的时候,就都能说“没有的事啦,是假视频。”
多鉴别器结构
如何用一张照片做出连贯视频?研究人员认为,这需要时序生成对抗网络(TemporalGAN)来帮忙。
逻辑上不难理解,如果想让生成的假视频逼真,画面上至少得有两点因素必须满足:
一是人脸图像必须高质量,二是需要配合谈话内容,协调嘴唇、眉毛等面部五官的位置。也不用动用复杂的面部捕捉技术,现在,只用机器学习的方法,就能自动合成人脸。
这中间的秘诀,就在于时序生成对抗网络,也就是TemporalGAN,此前在年提出过这个研究。
这是一个端对端的语音驱动的面部动画合成模型,通过静止图像和一个语音生成人脸视频。
在TemporalGAN中有两个鉴别器,一个为帧鉴别器,确保生成的图像清晰详细,另一个是序列鉴别器,负责响应听到的声音并产生对应的面部运动,但效果并不那么优异。
△TemporalGAN模型示意图
论文End-to-EndSpeech-DrivenFacialAnimationwithTemporalGANs