最新一期英国《经济学人》杂志刊文称,尽管很多科技行业的知名人士都对人工智能给人类构成的威胁表示担忧,这种技术也的确取得了长足的进步,但通过一番深入分析不难发现,这种技术短期内还远远无法真正模拟或超过人脑,只是在从事一些没有思想、没有灵魂的乏味工作。与其担心电脑是否会统治世界,倒不如先想想自己的工作是否会被电脑取代。
以下为文章全文:
伊隆·马斯克(Elon Musk)一直都在为人类“谋未来”。这位连续创业的传奇人物曾在万维网发展初期赚得了人生的“第一桶金”,后来协助成立了一家太阳能发电公司 SolarCity,力推绿色能源;还创办了电动汽车制造商特斯拉,帮助汽车摆脱对内燃机的依赖;他甚至组建了一家民营火箭公司 SpaceX,渴望于有生之年看到人类殖民火星。正是由于参与了种种未来感十足的尖端项目,他似乎成了对未来前景最为乐观的科技大佬。
然而,并非所有未来技术都能得到马斯克的认可。去年 10 月在麻省理工学院发表演讲时,马斯克曾经将人工智能描述为“召唤恶魔”的技术,担心这种在智能上可能比肩人类的产品有可能对世界构成前所未有的威胁。
持有这种担忧的不止马斯克一人,牛津大学哲学家尼克·波斯特罗姆(Nick Bostrom)曾经发表了一番名为“存在主义风险”的观点,罗列了可能影响人类生存的潜在威胁,除了小行星撞击地球和全面核战争等广为人知的因素外,他还将人工智能列入其中。英国皇家学会前会长劳德·瑞斯(Lord Rees)随后还在剑桥大学创建了存在主义风险研究中心,该中心同样对人工智能的威胁格外重视。
这些担忧折射出人工智能领域近年来弥漫的乐观氛围,这项技术最近几年已经取得了快速进展。谷歌、Facebook、亚马逊和百度都已经加入这场竞赛,不仅积极招募人才,还设立了各种实验室,甚至大举收购创业公司。多数业内人士似乎并不担心被自己创造出的机器或算法超越。这些企业似乎并没有创造新的思维方式,只是去掉了原有的一些模式,通过自动化程序完成原先只有人类才能胜任的工作,甚至让人类服从机器的指令。
在当今世界,具备上网功能的 PC、平板电脑和智能手机搜集了海量数据,而不断进步的计算能力也足以快速处理这些数据,使得软件算法可以理解更多语言,识别更多图像。很多企业都注意到这类技术蕴含的巨大机遇。还有人担心这些技术会抢走人类的工作:当今的很多工作都要依靠形态识别和符号翻译等技能,倘若电脑果真能够取代人类完成这些工作——既可以是全自动解决方案,也可以通过补充技术大幅加快人类的效率——领取失业救济金的白领肯定会越来越多。
人工智能技术的繁荣迹象随处可见。去年有传言称,谷歌斥资 4 亿美元收购了伦敦人工智能创业公司 DeepMind。这相当于从 Facebook 眼皮底下抢走了这家前景广阔的公司——Facebook 一直都在扩容自己的人工智能研究室,还专门从纽约大学挖来了明星研究员雅恩·勒坤(Yann LeCun)。谷歌也曾经聘用过斯坦福大学人工智能专家吴恩达,但去年被百度挖走。随后,百度也在硅谷成立了自己的实验室。
芝加哥创业公司 Narrative Science 希望利用电脑自动撰写新闻报道(《福布斯》其实已经开始用这种技术来报道基础性的财经新闻),而 Kensho 则计划自动完成金融数据分析专家的部分工作。这些项目都得到了投资者的大举注资。4 月 13 日,IBM 宣布将使用沃森(Watson)机器人的一个版本来分析医疗数据,展开病情诊断——沃森曾因为在 2011 年的美国电视问答节目《危险边缘》中击败了两名人类选手而名声大噪。
关键解决方案
从学术领域来看,人工智能的研究历史与计算机本身一样久远。当今很多令人振奋的技术进步都源自一个名为“深度学习”的子领域,这是“机器学习”的现代变种。通过这种技术,电脑便可通过自学掌握大数据分析等技能。这种模式创造的算法能够解决人工智能研究领域面临许多的难题:通常而言,人类难以应对的任务却很容易用电脑完成,反之亦然。
在求解复杂的数学公式时,即使是最简单的电脑也比人类“聪明”得多。但在以往,就算是性能最强大的电脑也难以胜任人类轻而易举就能解决的任务,例如人脸识别、语音解码和分辨图片中的物体。
简单来说,当人类发现自己难于应对某些事情时(例如求解复杂的公式),就可以编写一系列正式规则,然后将这些规则转化成程序,即可轻而易举解决问题。但对于人类认为简单的事情,就没有必要编写这样的明确规则,或者难以编写这样的规则。
举个最简单的例子,美国最高法院大法官波特·斯图尔特(Potter Stewart)曾在 1964 年发现了一个规律:成年人可以轻易区分色情图片和非色情图片,但要描述他们究竟是如何区分的,却是几乎不可能完成的任务。由于难以给出法律上“滴水不漏”的定义,他最终放弃了这样的尝试,并得出了这样一个耐人寻味的结论:尽管我无法在理论上定义色情,但“只要我看到色情图片,就能分辨出来。”
目前来看,机器学习是一种很好的解决方案,当程序员无法给出明确定义时,他们便可通过自学来识别物体。不过,机器必须借助海量数据展开高强度的统计分析,才能完成这种任务。
很多系统都使用了一项名为“神经网络”的传统人工智能技术,以此来展开他们所需的统计分析。神经网络是 1950 年代发明的一项技术,当时的研究人员虽然并不了解智能的真正含义,但他们知道大脑的确具有这样一个结构——只不过,大脑处理信息时使用的并不是晶体管,而是神经元。如果能模拟这些神经元——这是一种高度互联且能彼此发送电信号的细长细胞——或许就可以完成某种类型的智能行为。
神经网络技术
神经元非常复杂。即使是在今天,人工智能对这种结构的模拟也只能算是东施效颦。微软人工智能研究员克里斯·毕舍普(Chris Bishop)指出,自 1960 年代以来,电信公司一直都在使用神经网络技术发现的回声消除算法。但在取得了早期的成功后,这种理念却逐渐丧失了吸引力。当时的计算能力限制了神经网络的规模,导致这项技术的前景无法充分体现出来。
但最近几年,由于视频游戏对图形渲染能力的需求增加,计算性能得以大幅提升,神经网络再度引人关注。早期的神经网络仅能模拟几十或几百个神经元,通常都采用单层结构。而谷歌最新采用的神经网络则能模拟数十亿个神经元,使得研究人员可以进一步推进相关技术,并采用多层结构。正是得益于这种多层互联结构,才进一步将机器学习“深化”成深度学习技术。
每一个层都负责处理不同层次的抽象分析。例如,要处理一张图片,最低级的处理层负责分析原始图像,对每个像素的亮度和色彩逐一扫描,并研究整张图片上的属性分布。下一个处理层则将这些信息分为更加抽象的类别,并识别边界、阴影等更多元素。紧随其后的分析层则会对这些边界和阴影加以分析,找出可以表示眼睛、嘴唇和耳朵的信号组合。之后,便可将这些信号组合起来判断图中有一张人脸——事实上,这套系统不仅能泛泛地识别人脸,还能在一张新的图片中识别之前见过的某张人脸。
要充分发挥这类神经网络的作用,必须首先对其进行训练。例如,要让机器自学人脸识别,就必须为其提供数千张图片的培训素材,有的包含人脸,有的则没有。每一张图片都将由人类进行标记。图片本身作为输入到系统的数据,而标签(“是人脸”或“不是人脸”)则作为输出结果。电脑的任务则是在输入数据与正确的输出结果之间建立一套统计规则。
为了实现这一目的,电脑必须逐一了解那些标记为“人脸”的图片在各个抽象层中的所有共性。一旦相关性达到一定程度,电脑便可给出可靠的标记结果,在训练素材中找出人脸照片。下一步则是让其面对各种从未见过的图片,看看之前确定的人脸识别规则能否应用于实践。
通过这种自下而上的模式,机器学习算法便可掌握在人类看来“只可意会而不可言传”的辨别能力。但这种算法长期以来都局限于非常专业的领域。要编写这样的程序,往往需要系统设计师提供各种线索,通过手工编写代码的方式手把手教会机器来处理各种任务——例如,一组代码专门处理图像,另外一组代码则专门识别声音。
另外,早期的神经网络对数据的消化能力有限。一旦超过了某个程度,再为其提供更多数据便无法进一步提升效果。现代系统所需的“手把手”指导和调整越来越少。除此之外,数据分析能力也早已今非昔比,足以应对任何数据输入规模。而由于互联网的壮大,如何获取足够的数据也不再是问题。
百度、谷歌和 Facebook 等大型互联网公司都通过用户采集了海量信息,包括电邮内容、搜索请求和购物历史。他们的服务器中汇集了人脸、汽车、猫咪等各种各样的物体图片。这些企业的负责人深知这类数据所蕴含的潜力,但如此庞大的数据量却令人望而却步。不过,机器绝不会“望而却步”。人们已经找到了应对信息过载问题的方案,更何况,人类在创建很多数据时已经预先添加了标签。只要辅以正确的算法,电脑便可使用这些有注释的数据自学成才,从中识别出有用的形态、规则和类别。
结果令人颇为惊讶。2014 年,Facebook 推出了一套名为 DeepFace 的算法,能够在图片中自动识别人脸,而且精确率高达 97%,甚至连光照不足和半遮半掩的人脸都能成功识别。这几乎可以比肩人类的识图能力。
微软同样在大力宣传该公司为 Cortana 数字助理开发的物体识别软件,这款软件可以告诉用户潘布鲁克威尔斯柯基犬与卡迪根威尔士柯基犬,这两个相似度极高的犬种之间的差异(如下图所示)。有些国家已经开始将人脸识别技术应用于边境检查,而能够从视频脚本中识别人脸的系统对于警方和间谍机构而言也极具吸引力。5 月 5 日发表的一篇报告显示,美国间谍已经开始利用声音识别软件将通话内容转换成文本,以便简化搜索流程。
纯粹的自学
然而,尽管互联网提供了庞大的数据宝藏,但却并非无穷无尽。事实上,机器学习算法赖以生存的基础是人类预先注释过的数据,但这类数据的来源却非常有限。正因如此,一场“纯自学”算法的开发大战已然打响,研究人员希望在完全没有人工帮助的情况下让电脑展开“纯粹的自学”。
这一领域已经实现了很多进展。2012 年,吴恩达领导的一支谷歌团队展示了一套“纯自学”算法,在学习了数百万段 YouTube 视频图像后,便可对其“看到”的内容分类,包括人脸和网上随处可见的各类猫咪图片。整个过程中没有人在视频中添加“人脸”或“猫咪”标签。但在分析了海量信息后,这套算法还是可以轻而易举地通过自己掌握的统计信息对物体进行分类。
下一步则是从识别具体物体向识别许多不同物体发展。斯坦福大学的安德烈·卡帕西(Andrej Karpathy)和李菲菲(Li Fei-Fei,音译)在一篇论文总描述了一套新型计算机视觉系统,可以为某张图片的具体部分添加标签。例如,向其展示一张早餐桌,它便可以识别出桌子上的叉子、刀子、咖啡、鲜花,以及桌子本身。它甚至可以用流畅的英语生成场景描述信息(如下图所示)。但这项技术并不完美,经常会出现识别失败的情况。
谷歌等大型互联网都对这类技术表现出浓厚兴趣,因为这可能直接影响他们的利润。更好的图片分类其可以改进搜索引擎的功能,帮助其寻找用户真正想要的信息。从长期来看,这项技术还有更具革命性的用途。例如,能够分析和解读具体场景的技术不仅对机器人研究很有帮助,还有助于工业设备、无人驾驶汽车和战地机器人等新型装备在现实世界中实现完美导航。
图片归类还能对“增强现实”等技术形成促进。例如,谷歌眼镜和微软 HoloLens 等产品都会在现实影像的基础上叠加有用信息。旧金山 Enlitic 公司也希望利用图片识别技术分析X光片和核磁共振扫描结果,以检查人类医生可能忽略的问题。
另外,深度学习技术并不局限于图像识别。这其实是一种通用的形态识别技术,只要是能够提供大量数据来源的活动(例如保险公司运营和基因信息分析),都可以对其加以利用。在欧洲核子研究中心(CERN)最近举行的一项竞赛中,深度学习算法在识别亚原子微粒特征时的表现就优于物理学家亲自编写的软件——值得一提的是,前者的程序员对于这一领域的物理学知识几乎一无所知。更令人惊讶的是,还有一组研究人员编写了一套能自学《太空入侵者》游戏的算法,水平甚至超过人类玩家。
深度学习技术还能改善机器翻译水平,得益于网上的大量多语种文本资料,这一领域已经开始使用神经网络。目前任职于百度的吴恩达认为,在智能手机上引入优秀的语音识别程序,可以让很多因为文化程度有限而难以充分利用电脑的中国人,全面享受移动设备带来的便利。百度目前有 10% 的搜索是通过语音输入技术完成的,他相信这一比例到 2020 年将增至 50%。
这些不同类型的人工智能技术可以组合起来,形成功能更强大的系统。例如,2014 年 5 月,微软就在加州召开的一次会议上展示了一套同声传译电脑系统。在该公司的一位研究人员用英语演讲的同时,系统会将内容实时翻译成德语。这个套系统使用了 3 个人工智能程序,一个负责将声波解码成英语内容,第二个负责将英语翻译成德语,第三个再用德语朗读出来。该公司希望,他们有朝一日能在网络通话服务 Skype 中整合这项技术。
机器没有灵魂
利用智能手机和先进算法让教育水平较低的人享受互联网的便利,的确是好事,但这是否足以打消马斯克等人的“存在主义担忧”?形态识别和自学算法能否最终为机器赋予高于人类的智能?
很多对此忧心忡忡的人都有充分的理由。神经科学领域的研究已经延续了数十年之久,但几乎所有迹象都表明,人脑只不过是由普通原子组成的一台机器,使用了普通的自然力量,遵守了普通的自然法则。换句话说,它并不是依靠所谓的神秘“精神”运转起来的。这表明,要打造一个人工大脑,甚至是与人脑看似不同但却具备相同功能的机器,从理论上讲是完全可行的。
然而,理论归理论,实践归实践,不能完全混为一谈。目前任职于 Rethink Robotics 公司的人工智能先驱罗德尼·布鲁克斯(Rodney Brooks)认为,部分原因在于“智能”一词所引发的困惑。如今,电脑已经可以从事之前只有人类才能完成的事情。图像分类工具的精准度令人毛骨悚然,但它既没有目标,也没有动机,对于自己的存在也没有任何意识,只是按照枯燥的既定流程制作列表、建立模型。
另外,如果想要复制人脑的运作方式,未必非要以当今的人工智能模式为起点。人工智能借助很多类似于“蛮力”的模式来获得看似智能的反应,尽管效果比以前好了很多,但仍与真正的人类思维模式有着天壤之别。它的目的并不是建立一套可以模仿生物思维方式的系统。正如另一位人工智能先驱艾滋格尔·迪杰克斯特拉(Edsger Dijkstra)所说,问“电脑会不会思考”就好比问“潜水艇会不会游泳”。
推动社会进步
事实上,只要了解一下愚弄人工智能程序的方式,便可充分明白个中缘由。去年 6 月在一次计算机视觉大会上发表的论文表明,很多视错觉图片都可以愚弄图形识别算法(如下图所示)。这些内容都充分表明,电脑算法只能机械地匹配各种形态,但整个过程却完全不考虑任何背景信息。在算法眼中,物体并不是物体,只是一组具备某些特性的形态,这就使之很容易陷入类似的陷阱。某些情况下,在人类看来毫无意义的电视静电图像,却会被神经网络识别为具体的物体。
这并不是说人工智能领域的进步无法达成令人满意的结果。与之前的几波科技创新不同,很多中产阶级可能也会非常青睐这类技术。以微软的同声传译技术为例,虽然它远算不上完美,也没有人会将机器翻译的结果误认为是专业翻译人员提供的服务,但却足以帮助人们理解对方的大意。不仅如此,使用这种技术的成本也远低于专业翻译人员。因此,这种算法可以通过成本低廉的方式造福很多 Skype 用户。这或许对译者不利,但对其他人来说,确实是一大福音。况且,微软还会不断改进程序执行效果。
有人担心人工智能取代很多白领工作,就像机器设备在工业革命中取代了很多蓝领工作一样。这一点的确值得重视,例如 Narrative Science 的财经新闻撰稿程序和 Kensho 的金融数据分析程序,类似的例子不胜枚举。
Kensho 的系统是为了解读各种自然语言搜索请求,例如:“如果油价每桶下跌 5 美元,汽车公司的股价将会怎样?”之后,该系统便会搜索各种财务报告、公司文件、历史数据,并在几秒钟内用自然语言提供答案。该公司还计划将软件提供给大型银行和金融交易商。例如,法国 Yseop 公司就使用 Kensho 提供的软件来分析各种请求,然后筛选各种数据,最快能在一秒钟内用英语、西班牙语、法语和德语制作出 3000 页的报告。欧莱雅和 VetOnline.com 的公司也已经在各自的网站上使用该系统来提供客户支持。
事实上,这种担忧不仅存在于理论层面,一些白领工作已经逐步被及其取代。例如,很多公司都在使用电脑来接听电话。尽管功能存在局限,而且需要通过人工来解答一些电脑无法理解的问题,但的确可以大幅降低人工成本。要预测具体受此影响的工作是件非常复杂的事情,但牛津大学马丁学院却在 2013 年发表了一篇论文,认为美国统计人员追踪的半数职业都会受到影响。这令很多人颇感担忧。
但有弊必有利。价格低廉的自动化技术肯定大有用途。例如,用不知疲倦、快如闪电的电脑来检查医疗图像将会为医务人员提供很大帮助。看待人工智能的最佳方式,或许是将其视作一种加强人类大脑功能的技术。一如纸张提供了便携、可靠的记忆,算盘辅助了心算能力,人工智能同样是对人类现有能力的一种良性补充。
正如印刷机让抄录员下岗一样,高性能的人工智能技术也会令一些人失业。但那些无法被其取代的技术同样可以得到改进,让所有人都能获得原本只有少数人才能掌握的技能。如今,只要你随身携带一部智能手机,就相当于在口袋里放了一台庞大的老式计算机,只需要定时为其充电即可。未来,译员和医生或许也可以“随叫随到”。
另外,尽管马斯克和瑞斯等人仍然忧心忡忡,但电脑智能的提升仍将成为一项真正具有革命意义的技术。有朝一日,机器或许的确可以具备与人脑比肩的全面智能。但目前看来,与其担心电脑是否会统治世界,倒不如先想想自己的工作是否会被电脑取代。