作为人工智能领域的“领头羊”,DeepMind 的最新研究总是能引起大家的关注。那么在即将在加州长滩召开的机器学习领域顶级会议 NIPS 2017 上,DeepMind 又会给我们带来什么样的先知卓见呢?雷锋网为你整理了 DeepMind 在 NIPS 2017 上的论文,便于大家按自己感兴趣的内容按图索骥。一起来看一下:
第 1 天 12 月 4 日 2Poster
论文1:《Robust imitation of diverse behaviours》
作者:Ziyu Wang,Josh Merel,Greg Wayne,Nando de Freitas,Scott Reed,Nicolas Heess
摘要:我们提出了一个建立在最先进的生成模型上的神经网络架构,该架构能够学习不同行为之间的关系,并模仿它所显示的具体行为。训练结束后,我们的系统可以编码一个单一的观察动作,并根据这个演示创建一个新的小动作。它也可以在不同类型的行为(如步行的不同风格)之间切换,尽管之前并没有看到过这种切换。
(上面的小人切换步行风格像不像在跳舞?)
展示时间/地点:Pacific Ballroom #143,Poster 环节,6:30-22:30
论文2:《Sobolev training for neural networks》
作者:Wojtek Czarnecki,Simon Osindero,Max Jaderberg,Grzegorz?wirszcz,Razvan Pascanu
摘要:本文给出了一种将目标函数导数的知识纳入深度神经网络训练的简单方法。我们证明最近的基于 ReLU 的体系结构非常适合这样的任务,并评估它们在三个问题即低维回归,政策蒸馏和合成梯度训练上的有效性。我们观察到训练的效率尤其是在低数据情况下显著提高,并且以接近最新的准确度训练了第一个基于梯度的合成的 ImageNet 模型。
展示时间/地点:Pacific Ballroom #139,Poster 环节,6:30-22:30
第 2 天 12 月 5 日 4Poster
论文3:《Filtering variational objectives》
作者:Chris J. Maddison,Dieterich Lawson,George Tucker,Nicolas Heess,Mohammad Norouzi,Andriy Mnih,Arnaud Doucet,Yee Whye Teh
摘要:我们考虑将变分的下界扩展到基于粒子滤波的边界似然估计器(雷锋网注:主要特指估算概率分布)定义的下界族群。这些过滤目标可以利用模型的顺序结构在深生成模型中形成更紧密的界限和更好的模型学习目标。在我们的实验中,我们发现用滤波目标进行训练比使用变分下限训练相同的模型体系结构有了实质性的改进。
展示时间/地点:Pacific Ballroom #114,Poster 环节,6:30-22:30
论文4:《Visual interaction networks: Learning a physics simulator from video》
作者:Nicholas Watters,Andrea Tacchetti,Theophane Weber,Razvan Pascanu,Peter Battaglia,Daniel Zoran
摘要:在这项研究中我们提出了一种基于神经网络的模型”视觉交互网络“(VIN),在没有先验知识的情况下学习物理动力学。 VIN 能够从几帧视频中推断出多个物理对象的状态,然后用这些来预测对象位置。它还能够推断隐形物体的位置,并学习依赖于物体属性(如质量)的动力原理。
展示时间/地点:Pacific Ballroom #123,Poster 环节,6:30-22:30
论文5:《Neural discrete representation learning》
作者:Aäronvan den Oord,Oriol Vinyals,Koray Kavukcuoglu
摘要:在没有监督的情况下学习有用的陈述仍然是机器学习中的关键挑战。这项研究中,我们提出了一个简单而强大的生成模型,该模型被称为矢量量化变分自动换能器(VQ-VAE)以学习这种离散表征。当这些表征与先前的自回归配对时,该模型能够生成高质量的图像,视频和语音以及进行高质量的扬声器转换。
展示时间/地点:Pacific Ballroom #116,Poster 环节,6:30-22:30
论文6:《Variational memory addressing in generative models》
作者:JörgBornschein,Andriy Mnih,Daniel Zoran,Danilo Jimenez Rezende
摘要:基于注意力的记忆可用于增强神经网络,并被用于 Few-shot learning、快速适应性、更普遍地支持非参数扩展等领域。不同于目前流行的可区分的软注意机制,我们使用随机的硬注意力来生成模型中的记忆内容,这使得我们可以将变分推理应用于内存寻址,使用目标信息获得更精确的内存查找,尤其是在内存缓冲区大且内存条目混杂的模型中。
展示时间/地点:Pacific Ballroom #117,Poster 环节,6:30-22:30
第 3 天 12 月 6 日 2 Oral/4 Spotlight/4Poster
论文7:《REBAR: Low-variance, unbiased gradient estimates for discrete latent variable models》
作者:George Tucker, Andriy Mnih, Chris J Maddison, Dieterich Lawson, Jascha Sohl-Dickstein
摘要:由于具有高方差梯度估计量,对具有离散潜变量的模型进行学习具有挑战性。 之前的方法要么产生高方差/无偏梯度,或低方差/有偏差的梯度。 REBAR 使用控制变量和重新参数化技巧来获得两者中最好的结果:低方差/无偏差的梯度,使得收敛更快,效果更好。
展示时间/地点:Hall A,10:35-10:50,Oral 讲解;
Pacific Ballroom #178,Poster 环节,6:30-22:30
论文8:《Imagination-augmented agents for deep reinforcement learning》
作者:Sébastien Racanière, Théophane Weber, David P. Reichert, Lars Buesing, Arthur Guez, Danilo Rezende, Adria Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, Razvan Pascanu, Peter Battaglia, Demis Hassabis, David Silver, Daan Wierstra.
摘要:我们描述了一个基于想象力的规划方法的新族类,并介绍了为智能体学习和构建计划,从而最大化任务效率提供新方法的架构。 这些架构对于复杂和不完善的模型是有效的,稳健的,并且可以采取灵活的策略来扩展他们的想象力。 我们介绍的智能体受益于一个“想象编码器”,这是一个神经网络,它学习提取任何对未来决策有用的信息,但忽略那些不相关的信息。
图为智能体进行飞船任务游戏。该游戏必须激活一定次数的推进器以稳定飞行器。红色表示执行的轨迹,蓝色和绿色表示想象的轨迹。
展示时间/地点:Hall A,15:05-15:20,Oral 讲解;
Pacific Ballroom #139,Poster 环节,6:30-22:30
论文9:《A simple neural network module for relational reasoning》
作者:Adam Santoro, David Raposo, David Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, Timothy Lillicrap
摘要:我们演示了使用简单的即插即用神经网络模块来解决需要复杂关系推理的任务。 这个称为“关系网络”的模块可以接收非结构化的输入,比如图像或故事,并隐含地推理其中包含的关系。
展示时间/地点:Hall A,15:25-15:30,Spotlight 讲解;
Pacific Ballroom #139,Poster 环节,6:30-22:30
论文 10:《Simple and scalable predictive uncertainty estimation using deep ensembles》
作者:Balaji Lakshminarayanan, Alexander Pritzel, Charles Blundell
摘要:量化神经网络(NN)中的预测不确定性是一个具有挑战性但尚未解决的问题。 大部分工作集中在贝叶斯解决方案上,但这些方案都是计算密集型的,需要对训练管道进行重大修改。我们提出了一种贝叶斯神经网络的替代方案,该方案易于实现和并行,只需要很少的超参数调整,并产生高质量的预测不确定性估计。 通过一系列关于分类和回归基准的实验,我们证明了我们的方法可产生良好校准的不确定性估计,其与近似贝叶斯神经网络一样好或更好。
展示时间/地点:Hall A,15:45-15:50,Spotlight 讲解;
Pacific Ballroom #133,Poster 环节,6:30-22:30
论文 11:《Natural value approximators: learning when to trust past estimates》
作者:Zhongwen Xu, Joseph Modayil, Hado van Hasselt, Andre Barreto, David Silver, Tom Schaul
摘要:基于随输入而平滑变化观察的典型近似值,我们重新回顾了 RL 的价值逼近器的结构,但是当到达奖励值时真值会突然发生变化。 我们提出的方法使用插值与预测值估计,用于适应这种不对称的不连续性。
展示时间/地点:Hall A,17:25-17:30,Spotlight 讲解;
Pacific Ballroom #6,Poster 环节,6:30-22:30
论文 12: 《Successor features for transfer in reinforcement learning》
作者:Andre Barreto, Will Dabney, Remi Munos, Jonathan Hunt, Tom Schaul, David Silver, Hado van Hasselt
摘要:我们提出了一个强化学习的转移框架。 我们的方法取决于两个关键的观点:1)“继承者特征”,这是一种价值函数表示,将环境的动态与回报分离开来;2)“广义的政策改进”,一种考虑了一整套策略的一般化的动态规划策略改进步骤。 综合起来,这两个想法导致了一种无缝集成在强化学习框架内的方法,并允许在任务之间不受任何限制地进行转移。
展示时间/地点:Hall A,17:40-17:45,Spotlight 讲解;
Pacific Ballroom #9,Poster 环节,6:30-22:30
论文 13:《Deep reinforcement learning from human preferences》
作者:Paul Christiano (Open AI), Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei (Open AI)
摘要:人工智能安全的一个核心问题是如何告诉一个算法我们希望它做什么。 OpenAI 展示了一个全新的系统,允许没有技术经验的人员教 AI 如何执行一个复杂的任务,如操纵模拟机器人手臂。
通过 900 个人的反馈教会了这个算法后空翻。
展示时间/地点:Pacific Ballroom #1,Poster 环节,6:30-22:30
论文 14:《A multi-agent reinforcement learning model of common-pool resource appropriation》
作者:Julien Perolat, Joel Z Leibo, Vinicius Zambaldi, Charles Beattie, Karl Tuyls, Thore Graepel
摘要:本文考察了共同资源占用问题的复杂性。 如渔业,放牧牧场或淡水的系统,许多人或行为者可以获得相同的资源。 社会科学的传统模式往往表明,获得资源的各方以自利的方式行事,最终导致不可持续的资源枯竭。 但我们在人类社会的实际经验知道可能会产生很多中可能的结果。 像渔业这样的资源,有时候会被过度开发,有时可以可持续地收获。 在这项研究中,我们提出了可用于研究的新建模技术,旨在解释我们在现实世界中观察到的与传统模型预测的差距。
展示时间/地点:Pacific Ballroom #86,Poster 环节,6:30-22:30
论文 15:《DisTraL: Robust multitask reinforcement learning》
作者:Yee Whye Teh, Victor Bapst, Wojciech Czarnecki, John Quan, James Kirkpatrick, Raia Hadsell, Nicholas Heess, Razvan Pascanu
摘要:我们开发了一个强化多任务学习的方法。 我们的假设是,任务是彼此相关的(例如处于相同的环境或具有相同的物理特性),好的动作序列倾向于在任务中重复出现。 我们的方法通过将特定于任务的策略同时提炼为一个通用的默认策略,并通过将所有特定于任务的策略规则化为违约策略来跨这些任务转移这些常识。 我们的研究表明,这会导致更快、更强大的学习。
展示时间/地点:Pacific Ballroom #138,Poster 环节,6:30-22:30
论文 16:《A unified game-theoretic approach to multiagent reinforcement learning》
作者:Marc Lanctot, Vinicius Zambaldi, Audrunas Gruslys, Angeliki Lazaridou, Karl Tuyls, Julien Perolat, David Silver, Thore Graepel
摘要:在这项研究中,我们首先观察到独立强化学习者产生可以共同关联但在执行过程中未能与其他主体进行良好的概括的策略。 我们通过提出一个称为联合策略关联的新度量来量化这种影响,然后我们提出了一个由博弈论基础所推动的算法,该算法概括了虚拟游戏,迭代最佳响应,独立 RL 和双重预言等几种方法。 我们的研究表明,我们的算法可以在第一人称协调游戏中显着降低联合策略的相关性,并在普通的扑克基准游戏中找到稳健的反策略。
展示时间/地点:Pacific Ballroom #203,Poster 环节,6:30-22:30