导语:据《麻省理工科技评论》报道,近期德国研究人员利用深度神经网络成功提取了知名画家的艺术风格,并将这些风格应用至视频。如果这项技术得到推广,那么普通人手机拍摄的视频也可以被渲染为这些大师的风格。
以下为文章全文:
大部分人都说不清艺术风格究竟是什么。但想想梵高的《星夜》、毕加索的立体主义,以及爱德华·蒙克(Edward Munch)的《呐喊》,普通人可以很容易看出,这些作品有着各自不同的风格。
那么机器能否知道,什么是艺术风格?随着深度神经网络的发展,机器识别世界、表达世界的方式也在改变。在对象识别和人脸识别等领域,机器的表现比人类更出色,而几年前这还无法想象。
近期,机器已可以识别艺术风格,甚至重现这些艺术风格。这种技术有多么强大?例如,这种技术能否将某幅画作的艺术风格直接复制到一段视频中,同时不留下矫揉造作的痕迹,破坏视觉体验?
德国弗莱堡大学的曼努埃尔·卢德(Manuel Ruder)和他的同事已经证明,这完全有可能。研究人员拿来了《星夜》和《呐喊》等知名画作,将这些作品的风格整体移植至一系列视频中。这些视频来自《冰河时代》等电影和《马普尔小姐探案》等电视剧。机器对这些视频进行了重新渲染,这甚至能实现任何可以想到的艺术风格。
深度神经网络由多层模拟神经元组成,每层都能从图像中提取信息,并将数据传递给下一层。最初的几层能提取泛意的模式,而更深的几层能提取更多细节,从而实现对象识别。
更深几层模拟神经元提取的信息很重要,这其中包括了图像的细节,但除去了颜色和材质等环境信息。可以认为,这就像是计算机看到的素描画。
去年,德国图宾根大学的莱昂·盖提斯(Leon Gatys)及其同事开始以这种方式来研究艺术风格。他们发现,对艺术风格的把握并非来自每层神经元获得的信息,而是各层之间的相关性。某位艺术家画肖像的方式与画植物、马匹和太阳的方式有一定的相关性。找出这样的相关性就意味着找到了艺术风格。
不过,他们最重要的发现在于,画面内容可以与艺术风格毫不相关。此外他们还发现,可以提取这样的艺术风格,将其应用到画面的内容之中。
基于这一概念,你可以找出俄罗斯艺术家康定斯基的风格,并将其应用在自己的小猫画像上。这很有趣,但问题在于这项技术有多强大。
显而易见的下一步研究在于,如何将某种艺术风格应用至连续的画面,从而完成视频渲染。这方面的问题是,在应用新的艺术风格后,连续帧之间的细微差别可能会被放大,这就导致视频有很强的跳跃感,变得不连贯。尤其需要特别处理的是移动中,或是被挡住的物体边缘。
目前,卢德和他的团队已经解决了这一问题。他们表示:“在获得一幅画作之后,我们可以将其中的风格应用至整个视频。”他们的方法是利用算法去分析连续帧之间的差别,避免差别被放大。与此同时,他们会忽略画面中此前被挡住,但随后逐步显现的区域。他们表示:“这意味着重建被挡住的区域和扭曲的运动边界,同时保持画面其他部分的呈现方式。”
他们取得的成果令人满意。该团队利用算法提取了康定斯基、毕加索、马蒂斯、蒙克和梵高等人作品的艺术风格。
随后,他们对分辨率 1024x436 的视频进行了逐帧处理,硬件为英伟达 Titan X GPU 以及用于并行处理的 CPU。最开始,处理一帧需要 8 分钟时间,但在经过优化后,处理一帧的时间可以降至 3 分钟。因此整个过程需要大量的计算。
从完成的视频中我们可以直观地看到该团队的成果。他们重新渲染了多部电影、动画片,以及电视剧。
这一技术目前仍有待优化。如果帧与帧之间有着很大的移动,那么算法处理起来会很困难。此外,这一算法还可以通过优化去缩短计算时间。不过目前来看,这些问题都不会成为障碍。
目前尚不清楚,这一技术将会走向何方。不难想象,如果通过云计算平台提供这项技术,那么普通用户就可以对手机内的视频进行渲染。不过,是否有可能将《呐喊》的风格复制到三维空间,应用至虚拟现实环境?这完全有可能。
这将带来电影拍摄的全新方式,同时也将变革艺术创作。当艺术风格变成通用商品,可以被随意复制之后,艺术作品本身的意义将是什么?可以想象,用户可以编辑这些风格,甚至将多种风格组合在一起,例如鲁本斯和毕加索的组合,或是沃霍尔和莫奈的组合。