"阿尔法狗之父"答疑 新版解决了哪些遗留问题?_最新动态_新闻资讯_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 新闻资讯 > 最新动态 > "阿尔法狗之父"答疑 新版解决了哪些遗留问题?

"阿尔法狗之父"答疑 新版解决了哪些遗留问题?

 2017/10/20 10:30:11    程序员俱乐部  我要评论(0)
  • 摘要:【网易智能讯10月20日消息】DeepMind首席研究员、“AlphaGo之父”DavidSilver和JulianSchrittwieser(AlphaGoZero作者之一)在Reddit回答网友提问。资料显示,“AlphaGo之父”DavidSilver毕业于剑桥大学,获得了艾迪生威斯利奖,随后与人共同创立了视频游戏公司ElixirStudios,2004年,成为伦敦大学学院的讲师,Silver起初是DeepMind的顾问
  • 标签:解决 问题

阿尔法狗之父<a href=在线答疑 新版本到底强在哪?" />

  【网易智能讯 10 月 20 日消息】DeepMind 首席研究员、“AlphaGo 之父”David Silver 和 Julian Schrittwieser(AlphaGo Zero 作者之一)在 Reddit 回答网友提问

  资料显示,“AlphaGo 之父”David Silver 毕业于剑桥大学,获得了艾迪生威斯利奖,随后与人共同创立了视频游戏公司 Elixir Studios,2004 年,成为伦敦大学学院的讲师,Silver 起初是 DeepMind 的顾问,直到 2013 年正式加入 DeepMind。

  以下是我们精选的Q&A,全文请前往 Reddit.com

  当被问到为什么 AlphaGo Zero 的训练如此稳定?

  David Silver 说,AlphaGo Zero 所用的算法与策略梯度、Q-learning 之类的传统(无模型)算法不同,通过使用 AlphaGo search,我们极大地改进了策略和自我对弈的结果,然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络(policy+value network)。这比渐进的、基于梯度的策略改进(policy improvement)要稳定的多。

  为什么这次 Zero 就训练了 40 天?训练 3 个月会怎样?

  David Silver 认为,这是一个人力和资源优先级的问题,如果训练 3 个月,我想你会问训练 6 个月会发生什么。

  为什么一开始选择用人类对局数据来训练 AlphaGo,而不是通过自我对弈来从 0 开始?之前的 AlphaGo 瓶颈在哪里?

  David Silver 表示,创造一个完全自学的系统,一直是强化学习中的一个开放式问题,之前都非常不稳定,之后我们做了很多实验,发现 AlphaGo Zero 的算法是最有效率的。

  DeepMind 和 Facebook 几乎同时开始研究这一课题,为什么你们能达到这个水平?

  David Silver 说,Facebook 更专注于监督学习,我们关注强化学习,是因为相信它最终会超越人类的知识,研究表明,仅使用监督学习能够获得令人惊讶的表现,但如果要远超人类水平,强化学习才是关键。

  AlphaGo Zero 是 AlphaGo 的最终版本吗

  David Silver:我们已经不再主动研究如何让 AlphaGo 变得更强,但我们仍然用它尝试新的想法。

  AlphaGo 有没有开源计划?

  David Silver:我们在过去已经开源了许多代码,但 AlphaGo 始终是一个复杂的过程,它是一个非常复杂的代码。

  背景阅读:

  谷歌子公司 DeepMind 日前发布了一款新版本的 AlphaGo 程序,它能通过自学玩转多种游戏,这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。

  仅三天时间,AlphaGo Zero 自行掌握了围棋的下法,还发明了更好的棋步。这期间,除了被告知围棋的基本规则,它未获得人类的帮助。随着 AlphaGo Zero 被不断训练时,它开始在围棋游戏中学习先进的概念,并挑选出一些有利的位置和序列。

  经过三天的训练,该系统能够击败 AlphaGo Lee,后者是去年击败了韩国选手李世石(Lee Sedol)的 DeepMind 软件,胜率是 100 比0,经过大约 40 天的训练(约 2900 万场自玩游戏),AlphaGo Zero 击败了 AlphaGo Master (今年早些时候击败了世界冠军柯洁)。

发表评论
用户名: 匿名