搜狗王小川分享 AI 的“不靠谱”之处并首次发布实时机器翻译功能" />
11 月 17 日,第三届世界互联网大会进入第二天。搜狗 CEO 王小川在会上分享了以深度学习为代表的人工智能技术目前的瓶颈及希望,并在现场首次公布了搜狗自研的机器实时翻译技术。
王小川表示,AlphaGo 之后,大家关注到了人工智能技术的进展,但实际上,在文字领域,人工智能的进展还比较缓慢,今天机器翻译方面有了一些突破,但在问答及语义理解方面还很不够。
对此,王小川指出了两大挑战:一是多人情景下的语音识别,目前搜狗的技术在安静环境下已经可以达到 95%-97% 的识别准确率,但一旦出现两个人同时说话,机器就无法识别,王小川表示,这个问题在学术至今依然无解。
另外一个挑战是语义理解。王小川说,Google 之前采取的解决方法是知识图谱,但现在遇到了瓶颈,例如机器询问用户需不需要停车,用户回答要或者不要都没问题,但如果回答“我没车”,机器就不能理解。“自然语言的处理是可以做的,但是,语音的理解到现在还是个不靠谱的阶段。”
王小川还提到了无人驾驶的可靠性,他认为,在封闭场景中,无人驾驶汽车是可以使用的,但在真正开放的环境中,以目前的技术,仍然不安全。
虽然人工智能技术还有种种困难,但王小川认为,搜索和输入仍将是该技术比较有应用前景的两大领域,而这也正是搜狗的两大核心业务。
王小川认为搜索的未来应该是问答机器人,而对于输入,他表示这项技术的极致应该是能够开始寻找信息,帮助用户思考。随后,王小川还在现场演示视频中展示了搜狗最新的实时机器翻译功能。
以下是演讲实录:
我非常喜欢张一鸣先生刚才的分享,作为一个创业时间不长的公司,取得今天这样一个成绩,既有技术,也有情怀。已经听了 12 场分享了,最后一场是我给大家带来的我们对人工智能的理解。
前面 12 场中间有技术、有产品,我希望我给大家的分享能够有些不同的内容,有自己独有的视角。
今天一开始大家都提到了 AlphaGo 这个事情,作为今天人工智能引爆的一个开端,深度学习在中间承担了最重要的责任。今天大家开始畅想的时候,有可能认为人工智能未来真的会取代人,我希望今天的分享更多地能够知道人工智能在今天能做什么,不能做什么,未来终极的理想又是什么。AlphaGo 之后,我们看到最重要的领域突破是在语音和图像上,但事实上在文字领域的进展是缓慢的,今天在机器翻译里面会有一些突破,但是更多的问答或者其他的对语音的理解并不够。
所以,我们回到 AlphaGo 之外的图灵测试,上个世纪 50 年代图灵就提出了问答机器和对话系统这样一个概念。开篇来讲,我们今天有一个直观的感受就是语音图像进步很快,但是自然语言的处理是慢的。
抛开技术,作为一个产品经理,我会提到人工智能有三个产品的方向,今天的会上我们都谈到了,一个叫识别,语音识别、图像识别、视觉的识别。另外一个大家提的比较多的是创造,基于一幅图,我们生成它的文字描述,生成音乐,生成图像,这些都有。还有一件事情是判断,就是我们讲的做决策。这三件事情里面,我跟一些做投资的人聊过,我告诉他们中间最重要的、有重大商业意义的在于判断,今天大家分享的时候有提到了类似的概念。
大家提到了人工智能往前进步的几个层次,我想换一个语言来描述,就是工程师在今天人工智能时代会处于越来越重要的位置。我们开始提到传统的方法是把规则交给机器,随着统计系统的发展,包括深度学习,我们开始更容易地将答案交给机器。刚才汤道生讲的监督学习就是这样一个方式,所以,在数据足够的积累下,我们就能让机器变得更聪明。
这里面最前沿的方式是将目标交给机器。AlphaGo 融合了这样几套算法。但是我跟他们工程师沟通的时候,这样一个目标交给机器的强化学习还并不成熟。也就是说,如果没有之前三千万局人机对战的棋谱,这样一个 AlphaGo 的机器是没有能力做到只通过强化学习去赢得人类的。我会感觉在技术层面这是往下需要突破的一个重点。如果将目标交给机器能够做自我学习有新的突破,那我们离新的人工智能时代的到来就更近了。
今年 6 月份我去了英国伦敦,也跟 DeepMind 公司的工程师做了交流。我特别好奇的是在下棋的第四局机器输掉了,我遇到他们的第一个问题就是第四局怎么回事?他们跟我说,不是程序有 bug,就是深度学习本身有瓶颈。围棋比赛是 3 月份,我是 6 月份去的伦敦,已经过了 3 个月。3 个月的时间。对不起,这个问题依然没有解决掉。但是很好的是在我离开后的第一个星期,他们的程序能够正确地面对之前的第四局棋谱,但是问他是否这个 bug 修好了?工程师跟我说没有,只是代表第四局那个特定的问题正好机器能够解决,但是,我们依然不知道什么情况下这样一个 AlphaGo 会继续出错,所以我们知道深度学习这样一个体系还是有它的瓶颈所在。所以我今天更多的想跟大家谈以深度学习为代表的人工智能技术还有哪些不靠谱的地方是在产品上不适用的。
第一个问题先问一下语音识别靠谱吗?刚才百度和腾讯都提到了语音识别这样一个能力,今天我跟大家的演示也谈到了语音识别,这是搜狗自己的技术。安静的环境下我们的识别准确率到了 95% 或者 97%,但是一旦有噪音迅速下降,这种噪音可能还只是汽车引擎噪音,风的噪音,我们把噪音当成原始数据进入到监督学习系统里面,把这种噪音变成机器能见过的问题之一。但是假设同时两个人在说话,会怎么样?可以告诉大家,在今天的学术界依然无解,同时两个人说话,这样的噪音我们都没见过,我也没办法做提前的训练。
今年 6 月份我也在问学术界的人,人跟机器在语音识别上的区别究竟怎么解决?我们机器上能采用立体声的方式做定向的识别,我们做个麦克风矩阵,通过立体方式能够知道其中一个人在说话,把另一个人说的话去掉,那人是这么干的吗?如果把我的一只耳朵堵上,我是否没办法从两个人中间分别出说话的人,或者把两个人说话的声音录到一个单声道的录音带里,人还能识别吗?在座各位怎么看?人是可以的,所以人的方法跟机器并不一样。因此,我就跟一些博士在聊,究竟人怎么识别?是因为两个人的音色不一样,还是一个人声音大,一个人声音小,还是因为他们说不同的语言?那个博士笑了,他说,但凡同时有两个人说话的时候,只要能够找到一个差别,人就能把其中的一个声音识别出来,所以,人在跟机器处理的过程中还有巨大的不同。我在这里先不展开。我们认为语音识别已经在机器智能方面最成熟的领域还是跟人有很大的区别的。
另外一件事是语义靠谱吗?就是对语言的理解。Google 之前是用知识图谱的方法解决,现在开始遇到了瓶颈。今年 6 月,我在一个实验室看到他们最先进的人机对话系统,这个系统能帮你订餐和订酒店。在对话过程中,机器的表现是非常惊艳的,让我们上去试,中间有个环节请大家注意,机器开始问你,你是需要停车位,还是不要停车位?如果这个时候,我们回答说要或者不要,都没问题。我们就说,我没车。大家知道机器怎样的?它完全不理解我没车就代表着我不需要停车位,这是因为今天的机器在自然语言概念的理解里面还是远远不够的。所以,自然语言的处理是可以做的,但是,语音的理解到现在还是个不靠谱的阶段。
Google 今年也发布了一套对于自然语言能够做句子分析的一个引擎,把主语、谓语、宾语都能提出来,但是准确度可能就在 90%,就提不上去了,它自己也说,为什么呢?是因为这个时候光靠统计、靠语法已经不足够支撑了,往下需要对句子中具体的概念有理解才能消除歧义,就像我们知道不可能把一条马路放在一个冰箱上面,对人来讲是特别简单的事情,但是对计算机的挑战就非常大,所以这是深度学习为代表的人工智能还不够的地方。
很敏感的问题是,无人驾驶靠谱吗?今天百度在现场也提出了发布无人驾驶的汽车,但是从我的了解来看,如果以今天人类的技术,对于见过的场景、对于封闭场景的无人驾驶汽车确实是可以使用的,但是对于真正开放的环境,不只是跑在高速上或者是五环路上的汽车,对不起,以现在人类的技术,是不安全的。因为这个场景只要它没见过,它可能会犯严重的错误,就像 AlphaGo 下棋一样,它会突然发疯,所以我们可能叫辅助驾驶是可行的,无人驾驶在有新的技术突破前,我认为还做不到。
所以今天深度学习的弱点大家提得比较多了,本身不透明,所以它的可靠性有限,缺乏推理能力,特别缺乏对符号的理解。如果不能理解符号,自然语言的理解就会成为瓶颈。即便是这样,我们也提到它能够取代一些行业,比如说棋手、医生、司机,机器在里面都能做到很好的辅助,但是对于一些大家没见过的创造性的事情、规划、科研,其实是很难的。我们今天在媒体上看到的机器能够自动写文章、自动画图,我觉得更多的是在科研层面给我们展示出来它的一些例子,但是并不是能达到取代人真正使用的阶段。
所以在这里面我先把大家对人工智能的预期降低下来,也有人在问是否会出现第三次的退潮?前两次我们都认为人工智能到来了,但这一次可能会比之前好。在之前两次的人工智能退潮前,我们问一个老师,你是研究人工智能的吗?这是骂他的话,因为人工智能不靠谱。这一次是第一次真正进入到了使用,确实在语言处理、声音处理、图像处理和一些高维数据空间上,它能比人做得更好。因此,这次的区别就是大量的资金、资本投入到了人工智能,也有大量的研究人员在毕业后从事人工智能的工作,这是跟之前的工作不一样的,所以一方面开始使用,另一方面我们开始期待不断的产生新的突破。
我个人对这次是乐观的,但是我也会很紧张,也许我们自己做的搜索引擎就是会被颠覆的一部分。
在这里面,我要开始畅想未来的路在什么地方?从我自己的描述来看,搜索的未来就是人工智能时代的皇冠。为什么这么说呢?搜索的未来是什么?人工智能的未来又是什么?为什么是皇冠?简单来讲,我会认为搜索的未来就是问答机器人,因为我们已经习惯了一件事情,是做搜索的时候我们先输入关健词,然后给你 10 条结果或者是 10 条链接,但是这真的是最好的方法吗?肯定是不够的。我们也会提到是否我们用个性化的方法能够使得搜索的结果更准,但其实个性化能够提供的信息非常有限。真正能够使得这个系统变得有用的办法是用问句。以前不用问句的一个原因是因为机器听不懂你在说什么。真的到了问句之后,它能够从给你 10 条链接变成给你一个答案,就会好很多。
我们可以想像,如果你问机器四个字,“乌镇大会”,这个信息不可能给你想要的内容,最多是只能把新闻,乌镇的百科或者官网介绍给你,但是如果你问到乌镇大会哪一天开?这个时候机器才有机会给你更好的答案。所以我相信随着技术往下突破,搜索引擎会自然而然转化成一个问答引擎。
在这个道路里面,很多公司都在做,包括苹果、微软、亚马逊、Google,这里面起步最早做对话系统的大家知道是苹果的 Siri,这个系统并不成功,在中国用的人很少,不知道对英语现在的使用会怎样?为什么不成功?简单的原因是因为现在的技术还没有到来,现在我们对于自然语言的处理能力和自然语言的理解能力还非常有限,我就在想,为什么苹果这样一个追求极致的公司会把这个系统发布出来?一种可能性是苹果对技术了解不够,另一种可能性我认为是乔布斯的一个意愿,咱们知道在发布 iPhone 手机的时候,他已经躺在病床上看发布会了,发布会完成之后,他很快就离开人世了。所以这像一个早产的婴儿在 iPhone 4S 里面发布出来,所以我认为这样一个系统代表了乔布斯对于人类蛮终极的一种人机交互的畅想。
事实上在我们大量的文学作品、电影、科幻里面都会提到问答的机器,不管是《星球大战》、《超能陆战队》、《星际穿越》都会提到。一个最伟大的科幻作家阿西莫夫也在他的小说里面有一个短片,叫做《最后的问题》,他描绘的就是人类造出一台机器把整个地球、整个宇宙的能源都用上去。这个机器回答不了一个终极的问题,就是这个宇宙是怎么诞生的,但是其他的问题它都能回答。所以文学作品,其实是代表了我们对问答机器的一个思考。
除了搜索引擎做问答以外,咱们知道在中国搜狗的输入法拥有 3 亿的用户,输入法的未来是什么?我也会提到跟自动问答有关系。给大家看一个视频。(播放视频)
之前我们讨论输入法的时候很多朋友跟我说语音是最重要的,搜狗有完整的语音识别的技术和语音合成的技术,但是在我内心,这个远不是输入法的极致,它真正的极致是能够开始寻找信息,帮你去思考。刚才大家演示的是一个分享的能力,真正的回答能力可以在后面给大家做一个新的演示。(播放视频)
在我们讨论问答技术和讨论人机对话的时候,输入法也许是一个最好的切入场景。我们之前提到了百度的度秘或者是 Google 的 Assistant,它都是一个独立的引擎,但是输入法作为人的一个分身,刚才余承东提到的这个概念,更容易帮助你建立人的思考,输入法也会从一个拼音工具开始走向一个对话和问答的系统。
搜狗我们有两个核心产品,一个是输入法,一个是搜索,就提到了表达信息和获取信息,让表达和获取更简单。随着 AI 技术的发展,我们也真正能够去更好地解放人的思考。所以我们会有一个理念,两件事情,一个是做自然的交互,不只是语音,而是语言。另外,就是做知识的计算,能让机器逐步建立推理的能力。搜狗输入法拥有最大的语言数据的积累,我们最有机会在这个领域里面取得突破。
所以,谢谢,这是搜狗给大家的分享。