阿尔法狗之父：AlphaGo Zero 3天走完人类千年棋史_最新动态

您所在的位置：程序员俱乐部 > 新闻资讯 > 最新动态 > 阿尔法狗之父：AlphaGo Zero 3天走完人类千年棋史

阿尔法狗之父：AlphaGo Zero 3天走完人类千年棋史

2017/10/19 9:26:00 程序员俱乐部我要评论(0)

摘要：澎湃新闻记者虞涵棋、王心馨DeepMind公布最强阿尔法狗：AlphaGoZerohttp://v.tech.163.com/video/2017/10/I/C/VD05PNHIC.html伦敦当地时间10月18日18：00（北京时间19日01：00），谷歌旗下的DeepMind团队公布了进化后的最强版AlphaGo，代号AlphaGoZero。新版本的AlphaGo究竟有多厉害？打败李世石的AlphaGo用了3000万盘比赛作为训练数据，AlphaGoZero用了490万盘比赛数据
标签：

AlphaGo 新<a href= 版本问世：自学 40 天就能胜赢柯洁的版本" />

　　澎湃新闻记者虞涵棋、王心馨

　　DeepMind 公布最强阿尔法狗：AlphaGo Zero

　　http://v.tech.163.com/video/2017/10/I/C/VD05PNHIC.html

　　伦敦当地时间 10 月 18 日 18：00（北京时间 19 日 01：00），谷歌旗下的 DeepMind 团队公布了进化后的最强版 AlphaGo ，代号 AlphaGo Zero。

　　新版本的 AlphaGo 究竟有多厉害？打败李世石的 AlphaGo 用了 3000 万盘比赛作为训练数据，AlphaGo Zero 用了 490 万盘比赛数据。经过 3 天的训练，AlphaGo Zero 就以 100：0 的比分完胜对阵李世石的那版 AlphaGo。

　　DeepMind 联合创始人兼 CEO 、AlphaGo 之父戴密斯·哈萨比斯（Demis Hassabis）和 AlphaGo 团队负责人大卫·席尔瓦（Dave Sliver）等人同时在官方博客上发表文章，详解最强版本阿尔法狗是如何炼成的，与前代有何不同。

阿尔法狗之父：AlphaGo Zero 3 天走完人类千年棋史

　　哈萨比斯

　　与学习大量人类棋谱起步的前代 AlphaGo 不同，AlphaGo Zero 是从“婴儿般的白纸”开始，通过 3 天数百万盘自我对弈，走完了人类千年的围棋历史，并探索出了不少横空出世的招法。

　　哈萨比斯等人撰文：《AlphaGo Zero：从零开始》

阿尔法狗之父：AlphaGo Zero 3 天走完人类千年棋史

　　席尔瓦在乌镇人机峰会上发言

　　从语音识别、图像分类到基因和药物研究，人工智能发展迅速。这些专家系统，很多是借用海量人类经验和数据开发出来的。

　　然而，在有些特定问题上，人类的知识要么过于昂贵，要么不靠谱，要么无法获得。因此，人工智能研究的一个长期目标就是跳过这一步，创造能在最有挑战性的领域，不用人类输入就达到超人水平的算法。我们发表在《自然》期刊上的最新论文，展示了实现该目标的关键一步。

　　论文介绍了首个战胜人类围棋冠军的电脑程序 AlphaGo 的最新进化版本：AlphaGo Zero。AlphaGo Zero 更为强大，可以一争史上最强围棋手。

　　AlphaGo 的前几代版本，一开始用上千盘人类业余和专业棋手的棋谱进行训练，学习如何下围棋。AlphaGo Zero 则跳过了这个步骤，自我对弈学习下棋，完全从乱下开始。用这种方法，它很快超过了人类水平，对阵此前战胜人类冠军李世石的前代 AlphaGo 取得了 100 连胜。

　　AlphaGo Zero 之所以能当自己的老师，是用了一种叫强化学习的新模式。系统从一个对围棋一无所知的神经网络开始，将该神经网络和一个强力搜索算法结合，自我对弈。在对弈过程中，神经网络不断调整、升级，预测每一步落子和最终的胜利者。

　　升级后的神经网络与搜索网络结合成一个更强的新版本 AlphaGo Zero，如此往复循环。每过一轮，系统的表现就提高了一点点，自我对弈的质量也提高了一点点。神经网络越来越准确，AlphaGo Zero 的版本也越来越强。

　　这种技术比此前所有版本的 AlphaGo 都更为强大。这是因为，它不再受到人类知识的限制，而能够从婴儿般的白纸状态，直接向世界上最强大的棋手——AlphaGo 本身学起。

C4YPS (~QNE4(33([KARYF0T.png

　　AlphaGo Zero 相较前代还有几点明显的差别：

　　首先，AlphaGo Zero 仅用棋盘上的黑白子作为输入，而前代则包括了小部分人工设计的特征输入。

　　其次，AlphaGo Zero 仅用了单一的神经网络。在此前的版本中，AlphaGo 用到了“策略网络”来选择下一步棋的走法，以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中，这两个神经网络合二为一，从而让它能得到更高效的训练和评估。

　　第三，AlphaGo Zero 并不使用快速、随机的走子方法。在此前的版本中，AlphaGo 用的是快速走子方法，来预测哪个玩家会从当前的局面中赢得比赛。相反，新版本依靠的是其高质量的神经网络来评估下棋的局势。

　　所有这些差异，都提高了系统的表现，使其更为普适。不过，是算法上的变化使得系统更为强大和高效。

　　仅仅自我对弈 3 天后，AlphaGo Zero 就以 100：0 完胜了此前击败世界冠军李世石的 AlphaGo 版本。自我对弈 40 天后，AlphaGo Zero 变得更为强大，超过了此前击败当今第一人柯洁的“大师”版 AlphaGo。

　　通过数百万次自我对弈，AlphaGo 从零开始掌握了围棋，在短短几天内就积累起了人类几千年才有的知识。AlphaGo Zero 也发现了新的知识，发展出打破常规的策略和新招，与它在对战李世石和柯洁时创造的那些交相辉映，却又更胜一筹。

　　这些创造性的时刻给了我们信心：人工智能会成为人类智慧的增强器，帮助我们解决人类正在面临的一些严峻挑战。

　　尽管才刚刚发展起来，AlphaGo Zero 已经走出了通向上述目标的关键一步。如果类似的技术可以应用在其他结构性问题，比如蛋白质折叠、减少能耗和寻找新材料上，就能创造出有益于社会的突破。

上一篇：谷歌无人机在澳大利亚派送墨西哥卷饼，但这只是个开始下一篇：趣店上市首日大涨，业绩能撑起百亿美元市值吗

查看所有评论(0)

我要评论

发表评论

用户名: 匿名

阿尔法狗之父：AlphaGo Zero 3天走完人类千年棋史_最新动态_新闻资讯_程序员俱乐部

非技术区

移动开发

DB2

开发

数据库

互联网

系统

资讯

创业

阿尔法狗之父：AlphaGo Zero 3天走完人类千年棋史

查看所有评论(0)

最新文章

最新标签

今日热点

推荐文章