【腾讯科技编者按】业界媒体 TechRadar 发表文章,称人工智能(AI)是目前科技界最热门的流行语,经过几十年的研究和发展之后,科幻小说中的许多技术已经在这几年慢慢转化为科学现实。这篇文章总结了 AI 领域的 10 大里程碑。以下为原文内容:
AI 技术已经成为我们生活中非常重要的一部分:AI 决定了我们的搜索结果,将我们的声音转化为计算机指令,甚至可以帮助我们对黄瓜进行分类(这件事后文中会提到)。在接下来的几年里,我们将用 AI 驾驶汽车,回应顾客的询问,以及处理其他无数事情。
但是我们怎么走到这个阶段的?这种强大的新技术是怎么来的?下面就来看看 AI 技术发展的十大里程碑。
笛卡尔的理念
人工智能的概念并不是突然出现的 ——直到今天,人工智能仍然是哲学辩论的一个主题:机器真的能像人类一样思考吗?机器能成为人类吗?最早想到这个问题的人之一是 1637 年的笛卡儿。在一本名为《方法论》(Discourse on the Method)的书中,笛卡儿竟然总结出了如今的科技人员必须克服的关键问题和挑战:
“如果为了各种实用性的目的,机器在外形上向人类靠拢,并模仿人类的行为,那么我们仍然应该有两种非常确定的方法来辨识出它们不是真人。”
笛卡尔表示,在他看来,机器永远无法使用言语,或者“把标识放在一起”来“向别人表达想法”,即使我们能够设想出这样的机器,但是“让一台机器对文字进行组合,对别人的话做出有意义的,即便水平和最愚笨的人差不多的回答,那也是不可想象的。”
他还提到了我们现在面临的一个挑战:创建一个广义的 AI,而不是狭义的 AI——以及当前 AI 的局限性会如何暴露它并非人类:
“即使有些机器可以在有些事情上可以做得和我们一样好,或者甚至更好,但是其他机器也不可避免地会失败,这就表明它们的行为并非来自于对事物理解,只是一种简单的回应。”
模仿游戏
AI 的第二个主要的哲学基准来自计算机科学先驱图灵(Alan Turing)。在 1950 年时,他提出了“图灵测试”,他称之为“模仿游戏”。这个测试衡量的是,我们什么时候可以宣布智能机器出现了。
这个测试很简单:如果评判者不知道哪一方是人类,哪一方是机器(比如阅读两者之间的文本对话时),那么机器能否骗过评判者,让他以为自己是人类?
有趣的是,图灵对未来的计算做出了一个大胆的预测——他估计到 20 世纪末,机器就可以通过图灵测试。他说:
“我相信,在大约 50 年的时间内,人们就有可能用上 1GB 的存储容量的计算机,通过编程让它们玩模仿游戏,玩得足够逼真,以至于一般的评判者在经过 5 分钟的对话之后,做出正确的判定的可能性低于 70%…… 我相信,到本世纪末,文字的使用和通识教育理念将会发生很大的变化,那时你谈论机器思维,通常不会引发抵触情绪。”
可惜的是,他的预测不太准确。我们现在确实开始看到一些真正让人眼前一亮的 AI 系统出现,但是在 2000 年代,AI 技术还处在比较原始的阶段。不过硬盘容量在世纪之交时平均为 10GB 左右,这倒是远远超过了图灵的预测。
第一个神经网络的出现
神经网络其实是一种试错法,它是现代 AI 的关键概念。从本质上讲,当你训练一个 AI 系统时,最好的办法就是让系统猜测,接收反馈,然后在继续猜测——不断调整概率,以便让 AI 系统得出正确答案。
令人惊奇的是,第一个神经网络实际上是在 1951 年由马尔文·明斯基(Marvin Minsky)和迪恩·艾德蒙兹(Dean Edmonds)创建的,称为“SNARC” ,意思是随机神经模拟增强计算机。它不是由微芯片和晶体管,而是由真空管、电机和离合器制成的。
这台机器可以帮助一只虚拟老鼠解决迷宫难题。系统发送指令,让虚拟老鼠在迷宫里游走,每一次都将其行为的效果反馈到系统里——用真空管来存储结果。这意味着机器能够学习并调整概率,提高虚拟老鼠通过迷宫的机会。
本质上,谷歌当前用于识别照片中的对象的相同过程的非常非常简单的版本。
谷歌目前用来识别照片中的对象也使用了同样的过程,只不过远比它复杂。
第一辆自动驾驶汽车的出现
现在我们提到自动驾驶汽车的时候,可能会想到谷歌 Waymo 等等,但是令人吃惊的是,在 1995 年,梅赛德斯-奔驰就改装了一辆汽车,从慕尼黑开到哥本哈根,路上大部分时候都是自动驾驶的。
这段路程共 1043 英里,改装车上搭载了 60 个晶体电脑芯片,那是当时并行计算领域最先进的技术,让它可以快速处理大量驾驶数据,为自动驾驶汽车的响应度提供保证。
这辆车的时速达到了 115 英里,与当今的自动驾驶汽车相差无几,因为它可以超车并读取路标。
转向“基于统计”的方法
虽然神经网络作为一个概念出现已经有一段时间了,但是直到 20 世纪 80 年代后期,AI 研究人员开始从“基于规则”的方法转向“基于统计”的方法 ,也就是机器学习。这意味着不要试图去根据人类行为的规则来让系统进行模仿,而是采取试错法,根据反馈来调整概率,这是教会机器思考的好方法。这一点非常重要,因为正是这个概念让如今的 AI 办到了一些令人惊讶的事情。
《福布斯》的吉尔·普利斯(Gil Press)认为,这一转变是从 1988 年开始的,当时 IBM 的 TJ Watson 研究中心发表了一篇名为《语言翻译的统计学方法》的论文,特别提到了如何使用机器学习来做语言翻译。
IBM 用 220 万对法文和英文句子来训练这个系统 ——这些句子全部来自加拿大议会的双语记录。220 万这个数字听起来很多,但是谷歌有整个互联网上可以利用——所以现在谷歌翻译的效果可以说相当不错了。
“深蓝”击败国际象棋冠军
尽管 AI 的侧重点已经转移到统计模型上,但基于规则的模型也仍然在使用—— 在 1997 年举办了一场国际象棋比赛中,IBM 的计算机深蓝战胜了世界国际象棋冠军加里·卡斯帕罗夫,向人们展示了机器可以有多么强大。
这不是双方的第一场比赛,在 1996 年,卡斯帕罗夫曾以4-2 击败深蓝。而到了 1997 年,机器就占了上风。
从一定程度上说,深蓝的智能有点虚假——IBM 本身认为深蓝没有使用人工智能,因为它使用的是蛮力之法,每秒处理数千种走棋的可能性。 IBM 为这个系统注入了数以千计之前比赛的数据,每次对手走棋之后,深蓝就会照搬以前象棋大师们在相同情况下的反应。正如 IBM 所说,深蓝只是在扮演之前象棋大师们的幽灵。
不管这算不算真正的 AI,它都是一个重要的里程碑,让人们不仅开始关心计算机的计算能力,也对整个 AI 领域产生了兴趣。自从与卡斯帕罗夫对决以来,在游戏中打败人类玩家已经成为机器智能基准测试的主要方式 —— 2011 年时,我们再次看到,IBM 的“沃森”系统轻松地击败了两个人类对手,成为美国智力竞赛节目《危险边缘》的优胜者。
Siri 和自然语言处理
自然语言处理是 AI 领域的一大课题,要想像《星际迷航》(Star Trek)那样通过语音对设备发布命令,就需要有很强的自然语言处理能力。
所以,用统计方法创建的 Siri 令人眼前一亮。它由 SRI International 研发,甚至曾经在 iOS 应用程序商店中作为独立的 app 推出,很快,这家公司就被苹果公司收购,并深度整合在了 iOS 中。现在它和谷歌助手、微软小娜,以及亚马逊 Alexa 这些软件已经成为机器学习最引人瞩目的成果之一,改变了我们与设备互动的方式。
当然,我们如今似乎认为这种互动方式是理所当然的,但是任何曾经在 2010 年之前尝试过使用语音命令的人都知道,这个进步有多大。
图像识别
就像在语音识别上一样,AI 也可以在图像识别领域大有作为。在 2015 年,研究人员首次得出结论:在 1000 多个类别中,谷歌和微软研发的两个深度学习系统识别图像的效果比人类更好。
图像识别可以应用在数不清的方面,谷歌在推广其 TensorFlow 机器学习平台时举一个有趣的例子,就是对黄瓜进行分类:通过使用计算机视觉,农民不需要雇用人员来决定黄瓜是否合适采摘了,而是让机器来自动做出决定,只要这些机器接受过早期数据的培训即可。
GPU 让 AI 变得更便宜
AI 现在如此引人瞩目,一个重要原因就是在过去的几年里,处理大量数据的成本已经变得没有那么高昂了。
据《财富》报道,研究人员直到 21 世纪末才意识到,为 3D 图形和游戏而开发的图形处理单元(GPU)在深度学习计算方面比传统的 CPU 强 20 到 50 倍。在那之后,人们可以利用的计算能力就大大增加了,如今的 AI 云平台可以为无数 AI 应用提供动力。
所以,要感激玩家。你的父母和配偶可能不会喜欢你花这么多时间来玩游戏 —— 但人工智能研究人员确实很感激你。
AlphaGo 和 AlphaGoZero 征服世人
2016 年 3 月,人工智能又达到了一座里程碑——谷歌的 AlphaGo 击败了围棋九段李世石。
从数学上说,围棋比国际象棋更加复杂,但这次胜利的重要之处在于,AlphaGo 是用人类和 AI 对手组合进行训练的。据报道,谷歌使用了 1920 个 CPU 和 280 个 GPU,在和李世石的五局比赛中赢得了四局。
而更新之后的版本 AlphaGo Zero 更加厉害,它不像 AlphaGo 和深蓝那样使用任何以前的数据来学习下棋,而是直接打了数以千场的比赛,经过三天这样的训练,它就能击败 AlphaGo 了。也就是说,这台机器拥有自学能力。