在线答疑 新版本到底强在哪?" />
【网易智能讯 10 月 20 日消息】DeepMind 首席研究员、“AlphaGo 之父”David Silver 和 Julian Schrittwieser(AlphaGo Zero 作者之一)在 Reddit 回答网友提问。
资料显示,“AlphaGo 之父”David Silver 毕业于剑桥大学,获得了艾迪生威斯利奖,随后与人共同创立了视频游戏公司 Elixir Studios,2004 年,成为伦敦大学学院的讲师,Silver 起初是 DeepMind 的顾问,直到 2013 年正式加入 DeepMind。
以下是我们精选的Q&A,全文请前往 Reddit.com
当被问到为什么 AlphaGo Zero 的训练如此稳定?
David Silver 说,AlphaGo Zero 所用的算法与策略梯度、Q-learning 之类的传统(无模型)算法不同,通过使用 AlphaGo search,我们极大地改进了策略和自我对弈的结果,然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络(policy+value network)。这比渐进的、基于梯度的策略改进(policy improvement)要稳定的多。
为什么这次 Zero 就训练了 40 天?训练 3 个月会怎样?
David Silver 认为,这是一个人力和资源优先级的问题,如果训练 3 个月,我想你会问训练 6 个月会发生什么。
为什么一开始选择用人类对局数据来训练 AlphaGo,而不是通过自我对弈来从 0 开始?之前的 AlphaGo 瓶颈在哪里?
David Silver 表示,创造一个完全自学的系统,一直是强化学习中的一个开放式问题,之前都非常不稳定,之后我们做了很多实验,发现 AlphaGo Zero 的算法是最有效率的。
DeepMind 和 Facebook 几乎同时开始研究这一课题,为什么你们能达到这个水平?
David Silver 说,Facebook 更专注于监督学习,我们关注强化学习,是因为相信它最终会超越人类的知识,研究表明,仅使用监督学习能够获得令人惊讶的表现,但如果要远超人类水平,强化学习才是关键。
AlphaGo Zero 是 AlphaGo 的最终版本吗?
David Silver:我们已经不再主动研究如何让 AlphaGo 变得更强,但我们仍然用它尝试新的想法。
AlphaGo 有没有开源计划?
David Silver:我们在过去已经开源了许多代码,但 AlphaGo 始终是一个复杂的过程,它是一个非常复杂的代码。
背景阅读:
谷歌子公司 DeepMind 日前发布了一款新版本的 AlphaGo 程序,它能通过自学玩转多种游戏,这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。
仅三天时间,AlphaGo Zero 自行掌握了围棋的下法,还发明了更好的棋步。这期间,除了被告知围棋的基本规则,它未获得人类的帮助。随着 AlphaGo Zero 被不断训练时,它开始在围棋游戏中学习先进的概念,并挑选出一些有利的位置和序列。
经过三天的训练,该系统能够击败 AlphaGo Lee,后者是去年击败了韩国选手李世石(Lee Sedol)的 DeepMind 软件,胜率是 100 比0,经过大约 40 天的训练(约 2900 万场自玩游戏),AlphaGo Zero 击败了 AlphaGo Master (今年早些时候击败了世界冠军柯洁)。