在中国以外的地方,很少有人知道中国搜索引擎百度在今年早些时候的重要人员变动——该公司聘请吴恩达(Andrew Ng)担任公司首席科学家,并让他在硅谷主持设立一个新的人工智能实验室。吴恩达是斯坦福大学计算机科学教授,曾领导谷歌(Google)大脑人工智能项目,后来与别人共同创建了在线教育初创公司 Coursera。在百度的全球扩张计划中,他是个关键人物。
百度的硅谷人工智能实验室位于山景城,紧邻火箭科学家云集的美国宇航局(NASA)艾姆斯研究中心(Ames Research Center)。在这个基本上依然空空如也的实验室里,我们进行了两次话题广泛的交谈,吴恩达和该实验室负责人亚当·考特斯(Adam Coates)谈到了他们在百度的计划,以及人工智能可以做到的事情。正如我曾在一篇文章中介绍的,这其中包括改进的语音识别、更加智能的机器人和真正智能的个人助手等方方面面。
吴恩达话语十分轻柔,让听者不得不仔细聆听。他似乎已经意识到自己必须证明很多东西,以应对快速崛起的中国竞争对手——例如不久后将上市的阿里巴巴,以及像谷歌和 Facebook 这样的全球巨头。这些公司也押注于人工智能,特别是迅速兴起的人工智能分支——深度学习(deep learning)。甚至在我开口提问之前,吴恩达就驳斥了中国企业只会模仿美国和其他国家科技公司的说法,他认为这属于“刻板印象”。
至少,百度的例子就能够证明这种刻板印象其实是非常肤浅的。常常被称为“中国版谷歌”的百度计划打造出领先全球的技术,藉此跻身全球顶级创新企业之列,而把吴恩达招入麾下显然是该计划的一部分。在这次采访(文字经过编辑整理)中,他披露了有关自己打算如何实现上述计划的很多细节。
问:为什么你会对人工智能感兴趣?
答:我只是单纯地觉得,让机器拥有智慧是世界上最酷的事情。读高中时,我曾参加了人工智能方面的暑期实习,在新加坡国立大学编写神经网络系统,这是早期的深度学习算法。开发可以自行学习并作出预测的软件,我觉得这是非常神奇的事情。
如果我们可以让电脑更加聪明——在谈到人工智能时我用词都很谨慎,以免过分夸大——并让它更好地理解这个世界和周围环境,那么它就能使很多人的生活变得更加美好。就像工业革命将很多人从体力劳动中解放出来一样,我认为人工智能有可能将人类从很多脑力劳动中解放出来。
问:有段时间,你曾因为缺乏进展而对人工智能丧失了兴趣?
答:我是对使机器有朝一日演化到能像人类那般聪明的宏大梦想丧失了兴趣。刚进入斯坦福的时候,我不觉得这个梦想能够实现。后来,我看到很多现实依据,证明人工智能可以通过某种算法来实现。于是我觉得或许我们可以模仿人类的大脑,打造出更像人脑并且能够迅速进步的人工智能。这些想法早就有了,但(人工智能专家和 Numenta 联合创始人)杰夫·霍金斯(Jeff Hawkins)将之推广开来。
问:你距离实现这种想法还有多远?
答:噢,非常远。很多问题需要解决。一是规模,我们现在处理图像的能力还远远不够。二是我非常肯定我们还没有找到正确的算法。
问:那么,人工智能为什么能在近些年里重新引发关注并取得成果?
答:长期以来,人工智能只是被用于垃圾邮件过滤、相机自动对焦等等。这些功能都很有价值。但是在大约七年前,很多人看到了来自神经科学方面的最新依据,于是燃起了更大的希望,提出了更加宏伟的人工智能梦想——打造出不仅能出色完成一些任务,而且能更广泛地吸纳情报的机器。
大约四年前,也就是 2010 年底,我们研究出很多的人工智能算法,并意识到让这项技术达到下一个高度的最大瓶颈其实是在于规模。事实证明,我们可以把我们在上世纪 80 年代(或许是在我高中实习期间)编写的算法放在现今的电脑上运行,它的表现会好得多。
因此,在 2010 年底,我在硅谷到处寻找那些能让算法实现规模化的好办法。谷歌拥有很多电脑,所以我打算在谷歌启动一个项目来运行那些算法,并使之达到前所未有的规模。事后来看,这个项目之所以取得成功,是因为我们给团队提出了一个非常简单的要求:尽可能建立最大的神经网络系统。
问:这就是2012年的谷歌大脑项目,它可以识别猫的图像。
答:了不起的地方在于,它凭借自己的力量发现了猫的概念。没人告诉它猫是什么。这是机器学习的里程碑,启发了很多其他公司,包括 Facebook 和百度。
问:为什么那次实验对这些公司的业务能起到如此大的影响?
答:到目前为止,大多数在经济上非常重要的应用都仅限于从标记数据中学习。以语音识别为例,百度和谷歌大脑项目之所以能够提升语音识别性能,是因为深度学习算法能分析大量的转录语音数据。如今,我们总共拥有数万小时音频的文字整理稿,这就是标记数据,我们可以训练那些神经网络系统来作出预测。
而就长期来看,还存在另外一种不同的深度学习,它让我感到非常兴奋。它被称为无监督学习,也就是从非标记数据中学习。谷歌大脑项目识别猫的图像就是从非标记数据中学习的例子。我们让神经网络系统观看一周的 YouTube 视频,我们什么都不告诉它,只是让它看一周的视频,然后在一周后进行检查,看看它都学了些什么。结果它学会了分辨人脸、猫脸和其他一些东西。这对于人工智能而言具有里程碑意义。这就是无监督学习,它不同于如今推动了深度学习大部分经济价值的监督学习。
问:无监督学习为什么令你如此兴奋?
答:一是因为这最接近动物和婴幼儿的学习方式。比如学习如何辨认汽车,我们现在的做法是找到 5 万张汽车照片,把它们标记为汽车,然后将它们作为标记数据提供给监督学习算法。而孩子们如何辨认汽车呢?无论多么有耐心和爱心,没有哪位父母会指着 5 万辆汽车教他们辨认。大多数神经科学家认为,大部分动物和儿童的学习方法都是进入这个世界去亲身体验。如果我们能在这方面取得进展,我认为我们就能使神经网络系统更好地理解图像。
二是对有些应用来说,我们的数据开始耗尽。比如辨认汽车,现在我们能得到 5 万张汽车照片,如果下大力气的话,或许我们可以得到 50 万张,但到了某个程度,这个国家的汽车就没有那么多了,就算你跑遍全国,也难以弄到 500 万张(被标记为)汽车的照片。再比如医学成像,全国没有进行那么多次的X射线扫描,因此我们能得到的数据量是有上限的。
问:无监督学习是否将成为你在这个实验室里关注的重点?
答:它将是重点之一,是最初的关注点。无监督学习更难,经过验证的地方更少,我们不知道什么算法是正确的。我们有一些想法,但它要困难得多。
问:移动计算和通信的趋势以及传感数据的激增是否推动了这种兴趣?
答:不止是这些。大数据来自于两个方面。一是社会的日益数字化,这创造了可供计算机分析的数字化数据。二是存储和计算成本的持续下降,使我们能够存储和处理所有这些数据。如果你相信社会的数字化将持续,存储和计算成本将继续下降,那么我认为这预示着大数据将依然是大势所趋。
问:据我所知,对于这个实验室,你已经在考虑10年后的事情,但就近期和较长期而言,你有何计划?
答:百度研究院有三个实验室,两个在北京,大部分已经建成,硅谷这个正在从头建起。我们招兵买马的速度相当快,大概每周一人,但我们才刚开始一个月,所以坦白说我们还有很多工作要做。
问:对于这个实验室,你是否有了参照的榜样,比如贝尔实验室(Bell Labs)、帕洛阿尔托研究中心(PARC)、谷歌、微软(Microsoft)或其他?
答:在过去两个月里,我在百度开始工作之前做的一件事情就是与优秀实验室的负责人进行交谈。我今早与斯坦福国际研究所(SRI)的信息与计算科学副总裁比尔·马克(Bill Mark)见了面,此外还和很多人交谈过,比如施乐(Xerox)帕洛阿尔托研究中心的前负责人。我曾在谷歌X部门工作。很久以前,我曾是 AT&T贝尔实验室的暑期实习生,在整个大学期间和博士早期阶段,我每个夏天都呆在那里。我想谦虚一点,向其他人学习。有些研究模式确实要优于其他。
问:在你看来,一个实验室想要取得成功,最重要的因素是什么?
答:我觉得是团队文化。早些年当我想要建立团队组织时,人们会试图跟我谈文化,但我根本不在乎,认为那是微不足道的小事。那时我不理解什么是文化。现在我年纪大了点,开始真正了解和重视文化。
问:团队文化从一开始就非常重要,对吧?如果从一开始就没有做好,就会出现问题,因为它非常难以改变。
答:即使改变一点点也是千难万难的事。我们现在有机会建立一个有助于研究工作、有助于改变世界的团队文化。
说到底,一切都是关乎使命。我效力过的所有机构往往都是由使命推动的。Coursera 的使命是让每个人都享受到良好的教育。我们认为,实现这一使命的最好途径是开办一家公司。同样,这个实验室的使命是通过人工智能技术来改变世界。我强烈地认为,实现这一点的最有效途径是加入百度。
问:为什么是百度?
答:百度拥有非常先进的深度学习技术。我的好朋友余凯(百度北京深度学习实验室的负责人)是深度学习方面的佼佼者。深度学习对于网络搜索、广告、语音识别、光学字符识别和包括百度核心产品在内的该公司一大堆产品都非常有用。百度首席执行官李彦宏本人也热衷于人工智能。我非常欣赏的一点是,李彦宏在致股东的正式年报中谈到了深度学习。这说明百度领导层认识到了人工智能的重要性。
我加入百度有三个原因。一是如今的人工智能是资本密集型产业。你需要数据和计算资源才能取得进展。数据比计算资源更难获得,但你必须二者皆有。
二是灵活性。我认为百度拥有不可思议的灵活性。例如,余凯想要建立一个图形处理器集群,他只是作出了这个决定,然后就实现了。
三是人。百度的工程师极为勤奋。中国工程师努力工作的程度远远超过普通的硅谷工程师。
问:真的吗?硅谷初创企业的工程师似乎工作非常努力。
答:硅谷初创企业的工程师工作起来确实非常努力。但成熟企业的工程师不像初创公司和百度的工程师那样努力。
问:之前在谷歌工作,现在又来到一家常常被称为中国版谷歌的公司,这是不是有点怪异?
答:我真的不介意。我曾在百度美国分公司工作过。百度是中国的科技巨头。这点毋庸置疑。其他公司很会做产品——用户介面、流行应用等等。这不是百度的优势,但是百度十分善于打造真正的硬技术。
问:这是否得益于从事搜索业务,而搜索又是固有的技术难题?或者是因为领导层的选择?
答:是因为公司领导层。搜索是一门硬技术。百度领导层具有打造硬技术的意愿。该公司创造了更加稳固的基础。我觉得,在流行应用领域,天知道谁会成为下一颗新星,反正我是一点头绪都没有。Snapchat?我认为 Snapchat 所做的事情不容易。但是或许明年就会出现另一个 Snapchat++。但是当你打造了百度等公司试图打造的某些硬技术时,你就会拥有更加持久的基础。
问:你打算如何在这个实验室里完成这项工作?是否会超出互联网应用的范畴,进入机器人、自动驾驶汽车和其他领域?
答:起初,我们只是打算专注于人工智能技术。通常来说,我会先从产品着手,然后再考虑技术的事情。看看硅谷,大多数失败都不是因为没有解决硬技术问题;大多数失败,包括我自己的失败,都是把两年时间用在解决硬技术问题上,结果却发现没人在意,因为你解决的问题并非关键所在。
至于深度学习,它已经被用于百度的大量产品,而且对很多东西都非常有用,因此我并不怎么担心它对于现在或未来产品的实用意义。
问:你是利用百度现有的技术基础设施,还是需要建立新的设施?
答:亚当和我想做的是打造工具——基础设施和开发工具——以使与我们共事的深度学习团队能够有效地产生想法,并进行验证,然后从中学习。比如,很多的语音识别实验需要大约一周时间。当你需要一周时间才能拿到实验结果的时候,你就难以迅速取得进展。如果你能把时间缩短一半,那么效率就是原来的两倍。我们希望为深度学习领域的未来英雄们提供好的研究工具。
问:可能诞生哪些新技术?
答:我希望这能使我们对百度现有的一些深度学习应用作出渐进式改进,并向搜索、广告、语言翻译、光学字符识别和语音识别团队提供支持。
技术的改进带来了两种进步。有一种是渐进式的,这不应该受到轻视。如果我们能把网络搜索的性能提升5%,这将使很多用户受益。
问:另外一种呢?
答:技术的改进有时能带来突破性时刻,创造出前所未有的全新应用。举个例子。如果我们能在语音识别方面取得进展,让机器像人那样识别语音,那么你在开车的时候,只需要对着手机说话就能向朋友发送短信,即使车里很吵也一样。这是使用手机的全新方式,但目前还不可能实现。
如果我们能真正解决语音识别的问题,我会很乐意围绕着语音介面重新设计手机。或许移动设备上的邮件应用应该只有两个按钮:回复和删除。这些只是想法,也可能是糟糕的想法,但是语音识别等核心技术的改进确实可以带来这类更加巨大的变化。
展望更远的未来,像这样的技术改进可以创造出所有人都会真正去使用的个人助手。我们能否开发出可以替我们回复某些邮件的软件?这会使生活变得更加美好。
问:你还着眼于哪些其他的想法?
答:大概是有关机器人技术的一些东西,我们也有这方面的考虑。或者是零售商店,因为大数据正在影响着在线零售,因为像亚马逊(Amazon)和网飞(Netflix)这样的网站得到了关于消费者决策的海量数据。大多数的仓储式实体零售商并不是十分清楚店里发生了什么。如果得到了更好的数据,他们就能掌握情况。消费者是否拿起了这种商品(产品)?他们是否带着不喜的表情把它放了回去并走开?是否有可能让零售商得到有关店内情况的更好数据,从而可以进行A/B测试,就像在线零售商每天所做的那样?
就具体决定从事哪个项目而言,我常常问人们的一个问题是:如果你正在做的事情取得了完全令你意想不到的成功,其他人会在意吗?答案最好是非常响亮的“会”,否则的话我认为你应该找点其他的事情做。我喜欢从事这样的项目:如果取得成功,我们开发出的服务或产品就能显著影响到 1 亿人以上。
问:在深度学习领域,考虑到来自谷歌、Facebook和其他公司的竞争,你如何吸引人才?
答:到目前为止,我们能够吸引到非常优秀的人才。我们大概每周招募到一人,至今共招了六人。到目前为止,我们发出的每个工作邀请都被接受了,还有一个待定。我们的门槛一直都很高。目前聘请的员工全部来自硅谷。我们还在与其他地方的少数几个人接触,可能会花更长时间。
我们希望融入这里的生态系统,与研究人员和开发者交流。我们致力于打造一个有渗透力的机构。
问:这是什么意思?
答:当我们构思想法时,我们将与开发者群体分享它们。我们希望比其他很多机构更有渗透力。有些研究机构的主要目标就是写论文。这不是我们的目标。我们的使命是研发将使无数人受益的人工智能硬技术。我们更注重 B2C 的影响力,而不是 B2B 的影响力。
问:这个实验室的名称是硅谷人工智能实验室,所以你是否正着眼于深度学习以外的东西?
答:深度学习非常有前途,但同样有前途的还有其他的东西,比如决策。深度学习算法非常善于感知世界和认识世界。亚当和我曾经从事于名为增强学习的决策控制技术的研究,也就是决定如何驾驶这架直升机,如何驾驶这辆汽车,或者如何控制这个机器人。那是另一个重要方向,但那不是我们目前关注的事情。由于强调感知,深度学习这块的难度似乎更高一些。
问:这个实验室好像可以致力于无数不同的研究领域,而你的工作之一似乎就是限制数量。
答:富有创造力的工程师和研究人员有一个特征,那就是他们的想法总是比他们能够真正着手去做的事情更多。
我们将在这里做些很酷的事情。
译于波校李其奇