阿尔法狗在围棋上碾压人类后又学习玩游戏 已具有人类通关水平_最新动态_新闻资讯_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 新闻资讯 > 最新动态 > 阿尔法狗在围棋上碾压人类后又学习玩游戏 已具有人类通关水平

阿尔法狗在围棋上碾压人类后又学习玩游戏 已具有人类通关水平

 2016/7/5 5:34:23    程序员俱乐部  我要评论(0)
  • 摘要:自从在围棋上成功碾压人类(主要是李世石)之后,Google旗下深度学习产品团队DeepMind又开始让AlphaGo(以下成为阿尔法狗)学习怎么玩游戏,而且在极具挑战性的三维迷宫游戏Labyrinth中都取得了人类水平。据Google黑板报介绍,DeepMind的目标是「创造出一个能通过自我学习去制定战略,并最终取得出色的成绩的人工代理(artificialagents)。而在玩游戏的背后,是对于机器学习中深度强化学习的不断探索。」所谓「深度强化学习」是「深度学习」加上「深度强化」
  • 标签:学习 游戏

  自从在围棋上成功碾压人类(主要是李世石)之后,Google 旗下深度学习产品团队 DeepMind 又开始让 AlphaGo (以下成为阿尔法狗)学习怎么玩游戏,而且在极具挑战性的三维迷宫游戏 Labyrinth 中都取得了人类水平。

logs.com/news/66372/201607/66372-20160704231720202-2029028534.jpg" alt="" />

  据 Google 黑板报介绍,DeepMind 的目标是「创造出一个能通过自我学习去制定战略,并最终取得出色的成绩的人工代理(artificial agents)。而在玩游戏的背后,是对于机器学习中深度强化学习的不断探索。」

  所谓「深度强化学习」是「深度学习」加上「深度强化」,也就是说就是在经过无数次试验、在错误和正确中不断锻炼的强化学习的过程中再加上深度学习的过程,其中,深度学习则是直接通过原始输入,自行构造并学习只是的过程。

  早在两年前,DeepMind 在《自然》上发表的文章中就已经让阿尔法狗有很厉害的游戏水平了,在让训练阿尔法狗玩游戏的时候用了名叫 DQN (Convolutional Neutral Network + RL) 的深度强化学习算法,通过 50 种不同的雅达利游戏 (Atari) 来训练阿尔法狗的能力,结果表明 Google 的人工智能软件在雅达利 2600 的测试中,在 49 个游戏中有 29 个游戏获得了 75% 的专业测试的成绩,已经到了人类的水平。

  雅达利 2600 是美国的一个经典游戏机,当中经典的游戏包括 Adventure、碰碰弹子台、爆破彗星和 Pac-Man 等。

  现在 Google 又通过稳定学习动态等多种方式改进了 DQN 算法,使该算法在雅达利游戏的平均得分提高了 300%。现在人工代理已经在几乎所有雅加达游戏中取得了人类水平,单一神经网络甚至可以被培训去掌握多种雅达利游戏。

  据 Google 介绍,与此同时,名为 Gorila 的大型分布式深度强化学习系统也诞生了,这个系统利用 Google Cloud 平台,使代理的学习速度提高了一个等级。这让阿尔法狗的游戏水平更加深了一步,可以挑战极具挑战性的 3D 导航和迷宫环境,通过直接视野里观察到的像素输入,代理依此画出地图以发现并找到游戏的通关法则。

  迷宫 (Labyrinth) 就是阿尔法狗最新征服的游戏,Google 会在未来几个月以开源的形式发布。

发表评论
用户名: 匿名