10 月 19 日,多位全球计算机科学和人工智能学术领域的大师级人物一齐亮相由微软亚洲研究院与哈尔滨工业大学联合主办的第十九届“二十一世纪的计算”大会,分享他们各自在人工智能领域的研究和观点,共同探索人工智能的未来之路。
获取演讲 PPT,请在后台回复关键字“微软”。关注 AI 前线,获取更多优质 AI 内容。
大会举行的这一天凌晨,DeepMind 在 Nature 上发表了一篇关于 AlphaGo Zero 的论文,称 Zero 从对围棋一无所知开始,无师自通,通过自己与自己互搏、仅训练三天就 100:0 秒杀前辈 AlphaGo。这一消息几乎霸占了当天所有科技或技术媒体公众号的头条,并引发了热烈的讨论,这一话题也成为了会议上 Q&A 阶段和采访中被一再提起的问题。
几位大师都对这个问题发表了自己的看法,相比普通群众对于“AI 是不是真的要替代人类了?”的巨大担忧,大师们一致给出了更为冷静而理性的回答。对他们来说,DeepMind 的 AlphaGo Zero 取得的成绩确实非常亮眼,但这其实是伴随着人工智能技术的发展自然而然产生的结果,仍只适用于某一个特定领域,其中涉及的技术并不是非监督学习,依然需要大量数据,非监督学习目前还存在很多问题需要研究和探索。只因为这个成果而担忧人工智能会替代人类大可不必。
“做最能令你感到兴奋的事,而不是我告诉你应该去做的事” 和 “人工智能还有很长的路要走,目前深度学习的成功还是局限于特定细分领域”,这也是几位主讲嘉宾在演讲和问答环节频繁提到的两句话,前者送给面临研究方向选择的学生和面临工作转型抉择的技术人,后者则送给那些担忧人工智能很快将超过人类、甚至取代人类的人。
本文整理自大会部分演讲内容精要及现场问答,另外,InfoQ 围绕 AI 未来的发展以及微软在 AI 领域的规划 对洪小文博士进行了采访,下文会将采访问答一并奉上。
未来,人工智能何去何从、将如何书写,希望诸位能从几位大师的演讲和问答中收获灵感一二。
John Hopcroft: 人工智能革命
人工智能目前仍只是高维度的模式识别,我们离实现真正的人工智能还有很长的路要走。
在人工智能的驱动下,一场信息革命正在轰轰烈烈地上演。15-20 年前,支持向量机模型的出现点燃了这场革命的引火线,而最近,深度学习的快速发展将信息革命推向新的高潮。众所周知,深度学习在许多应用领域中都取得了标志性的成功,但这种高效运作背后的原因却知之甚少。
1986 年图灵奖获得者、康奈尔大学计算机系教授 John Hopcroft 教授是公认的计算机领域超级大师,他介绍到,深度学习是支持向量机(SVM)之后机器学习领域的重大发展,并以适用于图像识别的卷积神经网络介绍了深度学习模型的构成,指出了在高维空间里找到更优的局部极小值点和神经网络模型的训练加速问题等前沿研究方向。
人工智能热潮已经在全球范围内铺展开来,但事实上,我们离实现真正的人工智能还很远。首先,深度神经网络可以在某些特定任务、特定数据集上达到甚至超过人的水平,但那还远远不够;其次,虽然深度学习已经非常成功,并被誉为人工智能的驱动力之一,但其中还有一个非常重要的问题需要明白,那就是目前深度学习正在做的事情和人类大脑之间存在的主要区别,正如 John 所说,当前的人工智能只是高维空间的模式识别,比如,图像识别并没有理解物体的本质及其用途;最后,并不是所有智力相关的任务都需要人工智能,因此,处理人工智能相关工作不仅需要技术加持,更需要把握问题核心。
在上午的现场问答环节,John 对于年轻的科研工作者如何应对快速变化的世界、如何选择基础研究的课题,也给出了他的建议:“没有人有生活在这一崭新世界的经验。我们要尊重先行者的意见,但这并不等同于要全盘接受他们的建议。做最能令你感到兴奋的事情,而不是我要求你做什么、我告诉你应该做什么。生命只有一次,应该好好享受。”
Raymond Mooney: 深度学习革命
深度学习受限于算法、计算力和大数据,在深度学习吸引绝大部分注意力的同时,符号学作为机器学习的一个分支同样需要关注,二者结合才能真正实现人工智能。
近年来深度学习在很多非常有挑战性的 AI 问题上取得了长足的进展,包括语言识别、图像识别、机器翻译、棋牌游戏等等。常年从事机器学习研究的德克萨斯大学奥斯汀分校计算机科学系教授 Raymond Mooney 选择深度学习作为切入点,指出深度学习在目前看来有些“言过其实”,它带有明显的局限性,还不能真正解决 AI。
在简要梳理了机器学习的发展史(从单层神经网络到知识工程、从多层神经网络和符号学习到贝叶斯学习和和方法、以及深度学习的复兴)之后,Raymond 教授列举了现今深度学习的三大推动力:算法、计算力和大数据,以及由此产生的几大制约因素,包括从无标签数据中学习、压缩模型的规模等。除此之外,深度学习系统在面对针对性构建的恶意样本时仍然非常脆弱。
Raymond 教授认为机器学习、神经网络等有着悠久的历史,深度学习已经在多个方面取得了显著的成绩,并且还将取得更多成绩,深度学习将使革命性的新技术成为可能,但现在深度学习的能力被过度夸大了。在深度学习吸引绝大部分注意力时,符号学作为机器学习的一个分支同样需要关注,二者结合才能真正实现人工智能。Raymond 教授认为我们不能过于满足和夸大当前取得的成绩,AI 的核心问题尚未解决,未来的路还很长。
洪小文: 探索机器和人类学习的方式
我们已经进入持续学习的时代,相比“无所不知”,我们更需要“无所不学”,对于机器和人来说都是如此。
近年来,机器学习计算机视觉、语音和自然语言处理等领域取得了长足的进步。然而,很多挑战仍然存在,需要配合以更好的机器学习算法。而在某一些场景下,人们需要依靠现实世界的反馈来更好地学习。
微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士表示,随着人工智能对社会的影响越来越大,更多挑战需要人们去研究、去攻克,无论是机器还是人类都需要提升技能、跟紧脚步。
对于计算机而言,人类在不断探寻新思路帮助机器实现更高效的学习。深度学习往往需要大规模的标记数据,成本要求也相应提高,微软提出了新的学习范式——对偶学习来降低对大规模标注数据的依赖性。此外,自增强学习方法利用未完成训练的卷积神经网络对无标签数据进行测试,生成增强数据进行训练。
机器还可以在多方面帮助人们学习,例如提供学习建议和案例,作为语言学习的辅助手段。他以旨在帮助初学者提高口语水平的微软小英为例,介绍了语音识别、语音合成、自然语言理解、机器翻译、机器学习、大数据分析等人工智能前沿技术如何能够辅助人类学习。
另外,AI 还可以具备艺术创造力:创作诗歌、歌词以及音乐,对图片进行风格转换等。在这方面,微软运用生成式对抗网络(GAN)训练小冰创作诗歌,还利用「风格基元」(StyleBank)、端到端在线视频风格迁移模型等对图像、视频等素材进行艺术化创作。
最后洪小文博士总结到,人类和机器都需要持续学习和进化;机器学习依然会是未来的热门研究领域,其中最为重要的是“learning to learn”;对偶学习等新方法让缺乏大量标记数据的机器学习成为可能;人类可以利用机器更好地学习。
对话洪小文:AI 是一个工具,微软希望将 AI 普及化
在下午的压轴演讲开始之前,InfoQ 记者与洪小文博士探讨了人工智能未来的发展趋势、人工智能研究成果给企业带来的实际价值、微软在推动 AI 技术落地所做的工作以及未来对人工智能的规划。
洪小文博士认为人工智能研究成果的落地给企业带来的价值主要体现在四个方面,分别是产品、用户联系、提高内部运行效率、激发员工创新。
作为最了解微软的人之一,洪小文博士表示,微软的人工智能愿景是把 AI 普及化,微软作为平台和“背后的英雄”,向合作伙伴提供各种人工智能服务,同时向开发者开源技术标准,以达到普及 AI 的目的。
洪小文博士认为,未来语音识别要做到 100% 的准确率其实是一个 AI Complete 的问题,即需要解决 AI 其他领域的问题才能够解决语音的问题。人的智能实际上是全部智能的总和,人工智能未来的一个重要发展方向是将人工智能全领域技术结合起来。
机器在围棋比赛中战胜人类,并不意味着机器就比人类聪明。在洪小文博士看来,人类和机器具备各自独特的特质和技能优势。前者拥有创造力,更擅长“化繁为简”;后者则拥有处理海量数据并从中挖掘复杂模式的强大计算能力,这是一种“以繁制繁”的能力。机器要从“以繁制繁”跨越到“以简制繁”、达到抽象的更高层次,还非常困难。如果真的要做人的智能,不应该从大数据着手,而应该基于小数据、甚至零数据展开研究。对于人工智能的未来,人们关注的重点不应该是“人工智能是否会代替人类”,而是“如何提升人类的能力,通过人工智能帮助人类更好地学习”。
面对 AI 对人类的工作和生活带来的巨大改变以及接踵而来的各种问题,比如由于机器精准的推荐算法导致我们看待世界的角度变得过于单一等,洪小文博士表示,必须制定规则规范 AI 开发、监管数据,而且这些规则必须由各大科技公司、跨领域的公司参与共同制定。面对高速变化的科技浪潮,不能忽略其可能带来的负面影响,但也不应该过于消极,而应该更积极地去讨论如何应对这些问题。
如今人工智能空前火爆,很多技术人都在考虑是否该向 AI 工程师转型。洪小文博士认为第一步应该充分利用现有资源去学习和应用,AI 只是一个工具,与其说转型,不如说如何将 AI 与自己当前的领域技能相结合。如果真的想转型,需要综合考虑自己的技术优势和个人兴趣,洪小文博士的看法与 John Hopcroft 教授一致,“如果这真的是你喜欢、能让你感到快乐的工作,那么当然值得鼓励,但不应该只因为觉得 AI 会成功就去转型。”
以下内容整理自 InfoQ 对洪小文博士的现场采访速记,在不影响原意的前提下有部分删减。
InfoQ:今天上午有一个参会者提问时问到了 DeepMind 刚发的论文,AlphaGo Zero 采用强化学习技术,在很短的时间内就训练完成并打败了原来的 AlphaGo,您怎么看待这篇论文和 Zero 取得的成绩?
洪小文: 这个我觉得非常自然。对于科学家而言,首先 AlphaGo 当然有很了不起的成就,有了 AlphaGo,今天这个论文就非常自然。正如你所说,AlphaGo 里面涉及两项技术,一个 Monte Carlo Simulation,一个就是所谓的强化学习。强化学习它最了不起的地方就是,比如说以前你下一步棋,不管是人下的还是机器下的,你会对这一步好或者不好,马上做出一个判断。下棋有一个很重要的东西就是它下到最后一定会停的,而且停的时候知道谁赢,你走过的路都已经留下了痕迹,所以你下了这步,下到最后赢了,那我知道你这一步就是一个好步,或者是下到最后输了,那就是不好的棋步,这些结果都可以影响后来的棋步,强化学习就靠这样大量的学习。
机器算得太快了,而且机器每天都在进步,3 年前的 TPU 和两年前甚至是和今年相比,现在的肯定变快了。当它自己产生步数的时候,从效率来讲,那可能试过所有有可能的步,会试更多的。如果是人下,又是一个高手,你可能可以比较有效率,但是反正都是计算机算,你就让它算好了,所以这个结果我一点都不意外,这个东西本来就会赢。
但是有的人把下棋过度引申了,说它是非监督学习之类很了不起的东西,这是不对的,因为下棋很特殊的两点是,首先它一定会停,其次它最后一定会知道输赢。很多东西是没有监督就不知道的,比方说你们也听过的对抗学习,今天讲一个东西是人造的,它可以以假乱真,人家不告诉你这是假的,你就不知道是假的,不像下棋,你都可以知道输赢,所以说下棋是很特殊的。
我还要讲一点,很多人说人下棋下不过电脑,所以说电脑比我们聪明,这是不对的。人的聪明和电脑的聪明本来就不是一回事。人的智慧和 IQ 是什么?我把它叫做化繁为简。我们就说下棋,人下这么复杂的棋,这么多步,最终要把它归纳成一些可以推导的规则才能去下。下棋的大师应该是这样下的,而不是去记,如果是这样下,我就要下这一步,那叫做以繁制繁,以繁制繁反而是机器最强的地方。所谓的深度学习,从广义上来讲,其实就是一种模式识别。
深度学习是什么?就相当于这么复杂的一步步的组合,它利用这个学习过程来记一个东西,当你下这一步的时候,我知道下一步该出什么。这个就好比我十个电话号码叫你记一样,不要说下棋了,十个电话号码你都记不下来,所以以繁制繁这一点,人是绝对比不过计算机的。
人的智慧最高境界就是化繁为简,吾道一以贯之,这不就是化繁为简吗,我只要一个道理能搞清楚,一个道可以破所有的功,人的智慧是这个,绝对不是以繁制繁。以繁制繁是一种智慧,但不是最高的智慧。
InfoQ:那您觉得计算机能否从现在的以繁制繁跨越到以简制繁,即具备抽象能力这个层次呢?
洪小文: 还非常困难。最近最热门的科学新闻叫做引力波,为什么当年爱因斯坦要做这个,他想用一个统一理论来解释整个力学、动力学,这就是化繁为简,而且你想想看,我们今天所有所谓的 AI 都要大数据。当时他提出引力波的时候,不要说大数据,根本就是无数据。一百年以后,我们才勉勉强强测到了引力波,也就是说两者的工作思路不一样。AI 至少目前看不出,将来当然是有可能的,这个脉络完全是走了不同的方向。我觉得如果真正做人的智能,不是从大数据着手,而要从小数据着手,甚至于零数据。
InfoQ:您觉得现在 AI 的落地实践给企业带来的价值体现在哪些方面?
洪小文: 在微软我们把它叫做数字化转型,为什么这样说呢?因为 AI 一定要和数据、计算绑在一起,这里指的是今天有用的 AI。从有计算机到现在,哪样东西变成数字化了?支付、社交网络、买卖行为、电子商务,所有的都是数字化,更不要说物联网,物联网把以前没有数字化的东西数据化,然后就可以做分析,所以我们把它叫做数字化转型。
AI 落地给企业、单位带来的价值,我们认为至少包含下面四点:
第一个是每个企业、每个单位一定有个产品。事实上以前互联网 + 和这个很类似,怎么样用互联网、大数据、AI 迭代,让产品越来越好,这个谈得是最多的。
第二个是跟用户的连接。每个公司 2B 还是 2C,都有用户。当用户有疑难杂症的时候需要提供服务,比如客服机器人。
最后两个是内部的,一个是如何提高公司内部运营的效率、效能;另一个是怎么利用 AI 帮助员工提高效能,甚至帮助员工够把事业和家庭都照顾好。还有更积极的是怎么用这些大数据、人工智能激发员工的创造力。
所以,我觉得数字化转型和人工智能对企业来讲至少有这四层的意义,这个机会是很大的。
InfoQ:微软目前在这四方面是怎么做的?
洪小文: 这是微软的机会,我们能这样看也是微软的机会。无论是计算还是数据,都需要平台,所以微软会提供平台。相当于我们提供弹药,而且我们可以服务上千、上万、上百万的客户和我们的伙伴。
虽然我们不是去做行业垂直的应用,但是平台的机会更广。微软一直都是平台公司,平台公司有自己的优势。但是我们的缺点是很多时候报道看不到。比如说无人驾驶,可能没有人认为微软在做无人驾驶,我们的确没有在做无人驾驶垂直的应用,但是无人驾驶里面需要数据、要上云、要有结构化数据、需要数据库,还有 Hadoop、Spark 这种东西,上面还有我们的认知服务,不管是视觉也好,或者是小冰、小娜这样的技术也好。我们目前已经和好几家公司有合作,像日产、沃尔沃、BMW 等。所以在报道上可能只能看到今天沃尔沃做了什么自动驾驶的东西,但是我们是他们背后的无名英雄。
InfoQ:除了平台化的服务,像你们之前和 Facebook 推出 ONNX,对其他想尝试应用 AI 的开发者,也有很大的帮助。能不能介绍一下微软对于推动 AI 在业界的落地还做了哪些事情?
洪小文: 我们希望把 AI 普及化。事实上时机也成熟了。AI 为什么这么红火,就是因为它到了普及化的阶段。如果没有普及化,就只有一两家公司可以做,比如最近常谈论到的量子计算,离普及化就还有一段时间。一个东西会红火到每个人都要赶快去用,那它就具备了普及化的条件。但是这里还是有一个门槛,毕竟它是一项新的技术,所以我们怎么把它普及化,平台化是其中一项。另外,有很多东西会变成所谓的标准,所以我们会开源,推动产业界之间互相结盟,把这个饼做得更大。虽然公司和公司之间会竞争,但是竞争主要集中在推理阶段(interpretation),一个人今天用这个写了一个东西,它可以搬到另外一个平台上。普及化之后,你的饼做大了,哪怕你只是其中一小块,那都是很大的。所以我们做的每一件事情,都是往普及化的方向做,而这又最适合平台公司来做。
InfoQ:未来微软将重点关注 AI 领域的哪些研究方向?
洪小文: 分几块。一块是现在既有的 AI 的理论、系统和重要的 AI 的技术以及跟各种应用的结合,比如说感知,感知里面有语音、自然语言、视觉,这些东西是现在兵家必争之地,我们会继续做。
另一个就是做 AI 的基础研究。今天 AI 都是大数据,那小数据这些东西怎么弄,包括无数据?其实无数据、小数据和所谓的非监督学习都是相关的,只是现在更多用到大量的数据。其实还有另外一种做法,叫做 Rule-Based,又称为专家系统,以前大家可能觉得这种做法很难做出成果,但是人就是靠各种原则、规律或者知识图谱去学习的。而传统上往往做深度学习、做 Rule-Based 的各做各的研究,我想更多的是将来这两个怎么融合在一起,因为只靠某一个是不奏效的。我们研究院在这些方面也有一些新的想法。
还有一块不是纯技术的,当前数据已经变得如此重要,数据的监管问题不得不考虑。拥有大量数据的公司,需要负什么责任,什么东西可以做,什么东西不可以做,这个我觉得是需要关注的一方面。
另外,数据以偏概全以及算法也可能带来不好的影响。我们现在十分依赖算法给我们推送内容,而算法的设计又常常基于我们的喜好,到最后你听到的新闻是你想听到的,而不是你真正应该听到的。我们需要听到不同的声音、更多样化的观点,如果社会以后变得单一、不多元的话,就会有问题。
我们在美国发起了一个 Partnership on AI 的项目,联合很多公司去谈一些跨领域的东西,可能更多的会谈社会影响的方面。说句老实话,我绝对不敢说我们知道答案,但是道理是越讲越明的,今天这方面的讨论,至少我感觉在中国讨论得还不够多。但这其实是在未来我们必须要探讨的问题,而且这个问题可能比技术问题更难,因为它牵扯到多个领域,牵扯到政策的制定,需要政府和企业共同参与讨论。
我认为这个比讨论机器人把人打败更有意义,其实那个是根本不会发生的。甚至相比说 AI 技术取代人的工作,我希望更积极的讨论这件事。这个世界会变化,尤其是十年前我们学的东西今天不见得适用了,在这样的情况下,我们应该怎么培养下一代、怎么培养我们自己,还有所谓的终身学习,可能看这些东西更有意义。一件事情永远有积极和消极的看法,最消极的看法就是高科技全是坏的东西,我逃到一个岛上去过最原始的生活,这是最消极的方法。但其实我们应该积极地去面对,技术一定有好处,也有问题,如果没有好处的话大家不会用,但是我认为不应该一味地说这个东西不可能带来什么负面的影响,一定也会有,怎么样积极地面对,需要大家来讨论,集思广益。
InfoQ:您如何看待人工智能的基础研究和应用在美国和中国的差异?
洪小文: 从应用上来看,我认为差异不大。唯一的差别是中国在移动互联网上有一些条件的确是领先世界的,像移动支付以及微信里面一些新的社交网络的用法,这方面我觉得中国确实是有优势。但大体上来讲差别不大,尤其是现在世界都是通的,大家看到这些应用,总是会想想怎么把它用过去。
从基础研究来讲,我觉得中国应用型的创新、应用型的研究不缺,但是基础研究比起美国还是相对少一点,这个是好坏兼有的。因为中国正在快速发展,做很多事情多半背后都是有经济动机的,在这些方面也导致了我们对于基础研究的投入可能是不够的。现在有很多人在讲要更多地投入基础研究,我希望他们不只是讲,而是真正能做到,包括公司和个人。
InfoQ:语音技术是您的主要研究领域,能否为我们解读一下,语音技术(包括语音识别、自然语言理解)目前还面对哪些比较大的挑战?未来会如何发展?
洪小文: 语音的挑战永远存在,因为真正要做到百分之百的语音识别,我认为是个 AI Complete 的问题,就是解决其他 AI 的问题才有可能解决语音的问题。这是人跟机器不一样的一个地方,人最了不起的是我们可以用各种不同的智能去弥补某个智能的不足。一个最明显的例子,在语音里面叫做“鸡尾酒效应”,什么意思?你去参加一个鸡尾酒会的时候,非常嘈杂,每个人都要讲话,虽然我离你很近,但我可能听不清楚你在讲什么,你讲的话里面十个字有九个字我都没有听清,也许只听到几个音,可是因为我不但认得你,还知道你从事什么职业、知道你今天为什么参加这个酒会,所以你讲的内容我大概都能知道。
这种场景用今天的任何一个语音方法都一定失败,因为我们人类用了太多所谓的常识、对你的了解,有时候甚至会比手画脚。所以说这些就是把所有的 AI 都用上了。
人的智能事实上是全部智能的总和。做语音的时候,我们并不是只靠耳朵,而在做视觉的时候也会通过声音来辅助,我们会将所有的感官都用进去。这也是人工智能未来的挑战,大家在讲的通用人工智能,就是指这块,而这个很难做。尤其是深度学习,就是一个信号进来,然后出去,其他的东西可能有时候有、有时候没有,关键就在这里。如果说任何时候都有声音也有影像,那就简单了。所以我想几乎所有的,就像我刚才讲的语音的所谓鸡尾酒效应,在视觉里也有,把一个东西遮掉 90%,你都可以猜出这是什么。不管是不是能够达到通用人工智能,但是不同的智能之间都要能够截长补短,这肯定是未来一个很重要的方向。
InfoQ:人工智能的浪潮之下,有很多原来传统领域的技术人会开始考虑要不要转型到 AI 相关的工作,怎么判断该不该转型、如果要转型应做些什么,能否请您给大家提一些建议?
洪小文: 与其讲该不该转,我觉得要先学习和应用,今天有 MOOC、有各种各样的信息,学习不见得那么难。AI 今天之所以红火,是因为它的神秘面纱越来越薄了。很多人把 AI 讲得天花乱坠,事实上抽丝拨茧之后,AI 还是比较好学、也比较好应用的,这也是为什么 AI 可以普及化,这是第一步。这个第一步做到了,对很多人来说就够了,因为大部分人都是做应用。就好比计算机,没有多少人知道计算机芯片怎么做的,你只是拿来应用。对于大部分人来说,AI 只是一个应用。与其说转型,还不如说怎么把 AI 拿过来帮助你现有的专长,比如说每个公司里面的产品、用户、内部的运营和员工,应该先把这件事做起来。
当然,也不是说不可以转,就好像很多人本来不是学计算机的,怎么转到计算机?我觉得每个人要根据自己的优势,因时因地做判断。AI 只是一个工具,如果它非常有用,那代表其实是应用,真正再把它做得更好,不管是开发或者是研究,都只是少数。到底是不是要转型 AI?就像 John 说的,要看做这个事情是不是会让你感到快乐。我觉得应该有更多的人可以依照他们的喜好,去考虑要不要做某件事情。如果因为爱好而做 AI,那我鼓励,但是不希望太多人是因为觉得 AI 会成功才去做相关工作。