文/手稿 2012
4 月 2 日旧金山,Bulid 2014 微软开发者大会,这是微软新 CEO 纳德拉上台之后第一次 Build 大会,会上最引人关注的可能是 Windows Phone 8.1 和诺基亚的新旗舰 Lumia 930。微软最新的 WP 8.1 系统集成了智能语音助手 Cortana。自此,智能语音助手成为三大移动操作系统的标配。
Cortana,取名自经典游戏 Holo 中的人工智能,比 Siri 晚到了两年半,比 Google Now 晚了一年半。看起来微软仍在 iOS 和 Android 身后拼命追赶。
微软:领先的落后者
而实际上,微软在智能语音交互领域比对手领先不少。上世纪八十年代开始,微软就在语音识别领域投入重兵,此后一直是这一领域的执牛耳者。2005 年从微软跳槽到谷歌的李开复,被美国地方法院裁决禁止从事语音识别和自然语言处理相关领域的工作。李开复 1988 年的博士论文发表了第一个基于隐马尔科夫模型(HMM)的语音识别系统 Sphinx,被《商业周刊》评为 1988 年美国最重要的科技发明。
李开复当年的成果已经被逐渐超越。2012 年 10 月,微软副总裁拉希德在天津举行的“21 世纪的计算大会”上演示了一个人工同声传译系统,他的英文演讲被实时转换成与他的音色相近、字正腔圆的中文。该系统基于 2011 年 8 月发表的一项研究成果,拉希德和微软雷蒙德研究院的华裔科学家俞栋首次采用了深度学习(DL)模型,极大提升了语音识别的准确率。
深度学习又叫深度神经网络,是人工神经网络(ANN)算法的一种改进。它通过大规模的并行计算,模拟人类大脑多层次的认知神经系统,让计算机得以学习一些目前人类才拥有的认知能力,比如识别图片中的对象,精确翻译语言和理解口语化的表达方式。在图形识别和语音识别方面,深度学习展现出了巨大的优势,这再度勾起了人们对人工智能的想像。
希望与失望的轮回
2012 年,当时还在谷歌工作的李志飞,突然发现隔壁办公室的门上用透明胶带松松垮垮地贴上了一张纸,上面写着“Google Brain”。这是谷歌X实验室最新的项目,由斯坦福大学人工智能实验室主任吴恩达(Andrew Ng)发起。该项目利用 1000 台计算机进行并行计算,模拟出 10 亿个神经节点,让计算机得以识别一些本来只有人才能识别的对象。
和李志飞同一天加入谷歌的雷欣,此时在“深度学习之父”Geoffery Hinton 一个学生的帮助下,搭建一个用于语音识别的深度学习系统。三个月时间内语音识别的准确率提高了 10 个百分点,以往这样的提升通常需要一到两年。这个结果让谷歌很满意,2013 年他们干脆 5 亿美元收购了 Deep Mind。这家公司只有三名员工,就是 Hinton 和他的两个学生,Hinton 从此接手了 Google Brain。这是人工智能领域的一件大事,《纽约时报》称“深度学习让科学家看到了希望”。
过去半个世纪,计算机科学似乎很多次看见了希望,然后又一次次坠入了失望。爱因斯坦所说过的“我学到的越多,便意识到自己不知道的东西越多”,用来形容人工智能领域的进展,是再恰当不过的。
1956 年的“达特茅斯会议”确定了“人工智能”的发展方向是“精确描述人的学习能力和智慧并利用机器人进行模拟”。那时候大规模集成电路提供的计算能力让科学家们非常乐观。公众看到屏幕输出的“Hello,World”,以为只要再装上一副摄像头和麦克风,就可以跟人类交谈了,就像刚刚上映的《美国队长2》里面的纳粹科学家阿尔宁·佐拉那样。
科学家很快意识到这些乐观都是愚蠢的,甚至连人工智能的定义都模糊起来。此后人工智能一直以来都仅仅存在于科幻电影中。不过偶尔也有乔布斯这样的销售天才,用以他女儿命名的电脑播放一段事先录好的音频,让人觉得这和人工智能有那么一点关系,把三千美元的东西卖到一万美元以上。这套把戏在 2012 年的 WWDC 上又被库克玩儿了一遍,用于调侃对手三星。
大数据与云计算红利
然而随着互联网的普及和计算机运算能力的爆发式提升,事情也发生了一些变化。以深度学习为例,从理论上来看,数据样本越多效果越好。同时云计算也可以让深度学习从实验室里走出来,运用到更多的产品中。
3 月 16 日下午,创新工场在中关村鼎好大厦 10 楼的大会议室里人声鼎沸,在这里正在举办一场“深度学习与自然语言处理”的讲座。台上有百度深度学习研究院(IDL)的常务副院长余凯,还有来自中科院和清华大学的几位研究人员。台下有大约 150 名听众,一半来自互联网公司,一半来自附近的几所大学。
主持讲座的李志飞没想到这么火爆,他们三天前在微博上发出通知,结果很快就收到了 300 多个报名。由于这个会场本来只有 100 多个位子,所以他们拒绝了一半的报名,但是当天还是有 20 多没有成功报名的人来到了会场,他们的签到记录填满了一页 A4 纸。
余凯没有从事自然语言处理相关的工作,但对此非常着迷。用他自己的话来说,“语音和图形嘛,阿猫阿狗都能识别,但是只有自然语言,是大脑的高级产物”。自然语言处理不仅意味着识别语音,更重要的是理解语意。自然语言中存在大量的一词多义,不同的环境下同一个词义也有不同的表达效果。例如在世界绝大多数地方,“动物园”意味着参观野生动物,只有在北京人觉得“动物园”指的是一个服装批发市场。
因此,自然语言堪称是人机交互“皇冠上的明珠”。在图形和语音识别领域大放异彩的深度学习,恰恰在自然语言处理这里卡了壳。清华大学计算机学院副教授刘洋和南京大学赵迎功博士在讲座上提到了多个使用深度学习模型进行自然语言处理的实例,发现相比传统的算法并没有太大突破,很多时候甚至会出现倒退。
对这样的结果,余凯没有感到灰心,他建议把计算机集群和学习样本提高一个数量级试试,并透露百度内部的一些项目已经有了不错的结果。“Geoffery Hinton 他们 06 年开始就在用深度学习做图形和语音识别,一直到了 12 年,七年时间才实现了突破”,说到这里,余凯从沙发上站起来:“我相信用深度学习做自然语言处理,也会有这一天的。”
互联网向左,科学家向右
互联网行业的很多投资人和创业者都相信这一天会很快到来。正是这种信念支撑了科大讯飞 200 亿元的市值。李志飞也被这样的前景所鼓舞,他 2012 年从谷歌离职,两手空空就拿到了百万美元的风投,创办了“出门问问”。他们的语音识别系统首先登陆微信服务号,后来又开发了 Android 版的独立应用。今年年初李志飞又把好基友雷欣从谷歌挖来任命为 CTO,拿到了千万美元的B轮融资。他在朋友圈里写道,“谷歌这些年的布局好像真的是为 AI 做准备,有点小激动”。
不管谷歌“好像是”还是“真的是”,百度都不能被落下。余凯刚刚带了一队人马去硅谷,和谷歌、Facebook 抢人。做过深度学习相关研究的博士生身价被爆炒到 30 万美元。百度在国内也推出了“少帅计划”,向 30 岁以下青年才俊开出百万年薪,对一流科学家更是上不封顶。谈起这件事情,余凯有些亢奋。他 2012 年加入百度,之前在 NEC 实验室就在做深度学习的相关研究。在硅谷,他遇到了 Facebook 人工智能实验室的负责人 Yann LeCun。LeCun 不无炫耀地告诉他,他在 NEC 的同事几乎都被挖到了 Facebook。
但是在中科院自动化所资深研究员宗成庆看来,深度学习只能解决人机交互中的一部分问题,人工智能领域还有很多其他的问题,不可能用一种算法解决。“深度学习不是什么新东西。2012 年 IWSLT 上,李开复的师兄,阿莱克斯·韦伯就质问过俞栋为什么不引用自己 20 年前的文章”,说到这里宗成庆加快了语速,“在我的研究组,我不主张大家都去做深度学习,一窝蜂在人家后面追赶,几年之后又出现一个什么新的算法,被人家一个急转弯就甩开了”。
余凯自己也不相信五年后深度学习还会这么火热。上周克里斯·安德森宣布设立 AI XPrize 奖项,旨在表彰第一个能在 TED 发表演讲的机器人。前这位《连线》杂志主编创办了一家机器人公司,他认为这样的机器人至少要 20 年后才能到来。5 年与 20 年之间的 15 年,一定会有很多的事情发生。雷欣觉得谷歌和 Facebook 的领导层都离开学术界太久,他们对深度学习可能有些乐观了。
“毕竟扎克伯格本科都没有读完”,会场里突然冒出来这样一句话。