摘要
最近,一段以「神奇女侠」扮演者盖尔·加朵为「主角」的不可描述短片在网络上开始流传。
女神下海是所有宅男的梦想,大多数人只能心里想想,但有的技术宅却靠自己的双手解决了这个问题。最近,一段以「神奇女侠」扮演者盖尔·加朵为「主角」的短片在网络上开始流传,仔细看就会发现,盖尔·加朵的脸只是被「换」到了别人身上,视频的主角并不是女神本人。
这段视频出自国外 Reddit 论坛,作者是一位叫 deepfakes 的网友,除了「神奇女侠」盖尔·加朵,他的作品还有很多,艾玛·沃特森(赫敏)、麦茜·威廉姆斯(二丫)、斯嘉丽·约翰逊(黑寡妇)均在其中,这些视频都是用 AI 技术辅助合成的。
这不是尖端技术,用开源项目就可以实现
没有人可以百分百模仿别人的脸,即使是日本的波多野结衣、东尼大木,也只是某个角度和明星相似,再加上网友的恶搞,才在网上流行起来。这次「移花接木」的盖尔·加朵视频不是模仿秀,也不是复杂的 CG 技术,只是靠现有的 AI 开源项目,用机器学习进行大量训练,然后合成了短片。
deepfakes 不是专业的研究人员,只是对机器学习感兴趣,他所用的技术全部基于 TensorFlow、Keras 等开源软件。deepfakes 用 Google 图片搜索、公开的图库和 YouTube 视频搜集了大量图像,然后用这些素材训练深度学习网络。经过反复的训练,系统就可以识别出盖尔·加朵的正确图像,算法会自动将其他图像变得和训练对象更相似。
deepfakes 在 Reddit 中提到,他使用的算法和前段时间英伟达用来改变天气的技术类似。英伟达使用的是生成式对抗网络(GAN),这种模型擅长处理视觉数据,所生成的图像更锐利、清晰。英伟达用这个技术可以将晴天的视频转换成雨天,以此来欺骗视觉。
有 AI 行业的研究人员表示,这已经不再是尖端技术,用消费级显卡处理这种效果只需要几个小时。
如何让女神的细节更完美?
仔细看这段视频,会发现盖尔·加朵的脸并不是和身体完美贴合,偶尔还是会有错位、失真的现象,有时候声音和口型也对不上。考虑到只是一个程序员的个人作品,能达到这样的程度已经很让人震撼。
机器学习需要大量素材来训练,即使是选择名人作为训练对象,在面部表情上也无法做到尽善尽美,Face2Face 可以解决这些细节问题。利用面部追踪技术,可以将真人的面部细节复制到已有的视频中,利用它可以制造大量具有表情细节的视频素材。
(点击查看视频)
如果我们再多一点「野心」,口型对应的问题可以解决吗?答案是肯定的。
华盛顿大学的研究人员开发出一种新的算法,可以将人说话的声音转化为对应嘴型,然后将其移植到一个现有的视频素材中,生成一段全新的视频,视频中人说话时嘴唇的动作几乎和声音完美对应。
研究人员使用的素材是奥巴马,因为深度学习的算法需要有大量数据做支撑,而他的视频在网上有较多的素材,机器学习会更容易实现。据研究人员透露,整个学习过程需要用 17 个小时的视频作为训练素材。从技术上讲,完全可以把任何人的声音安插到其他人的脸上。
视频中左边是原版的视频。右边是经过算法合成的新视频,用的还是左边视频中的声音,但图像是全新生成的。
(点击查看视频)
口型的问题解决了,这样我们会得到一个由盖尔·加朵的脸、其他女星的身体和声音组成的视频,并且口型和声音能够同步。当然,熟悉盖尔·加朵的人肯定会察觉到异样,毕竟声音和人不对应。
既然图像可以创造,那么声音呢?
在 2016 年 Adobe Max 大会上,开发人员展示了一款代号为 Project VoCo 的软件。它和之前的音频编辑软件不同,你可以在一段声音里直接插入和改动某几个单词。理论上只要有约 20 分钟的录音,Project VoCo 就可以理解一个人声音的构成并进行复制。也就是说利用它可以生成一段你从未说过,但确实是你声音的话。
像 Photoshop 一样编辑声音的技术并不是空想,一个叫 Descript 的音频编辑软件已经正式推出。将声音转化为文字后,你可以通过编辑文本来对音频进行剪切、复制、粘贴、删除和插入等操作。当然,可编辑的音频数量要基于素材的丰富度。
Descript 和 Project VoCo 一样,能基于已有声音素材进行编辑,要重新创造一段话还是很难。想要在 XX 片中听到完美的声音还原,还要考虑语气、情绪等因素影响,不然做出的视频只能是鬼畜效果。
用 Face2Face 制造有面部表情的视频素材,用音频编辑软件生成声音素材,然后用 deepfakes 的机器学习系统换脸,并用华盛顿大学研究人员的技术让声音和口型对应。这样,声音、图像、表情、口型问题都解决了。
技术难度并不是唯一限制
用技术来还原人物形象的做法在电影中已经出现很多次。《速度与激情 7》中用 CG 技术还原了已经去世的保罗·沃克,《星球大战外传:侠盗一号》中还原了彼得·库欣。这些 CG 技术难度很大,成本也高,AI 技术、机器学习的普及让制造假视频变得简单起来。
前几年网上流行过一段奥巴马踹门的视频,后来被证明是通过剪辑合成的。如果这些场景放到今天用 AI 来实现,恐怕微商们不需要 20 万也可以和前美国总统合影了。
难度并不是新技术推行的唯一限制,我们更应该考虑的是这些技术被滥用之后,引发的道德、伦理、版权等问题。直播、短视频等平台生产出大量内容,手机的面部识别功能也开始普及,如果这些数据被人恶意利用,造成对个人、社会的影响是无法估量的。
AI 可以造出女神,也可以造出魔鬼。
头图来源:DeviantArt