《麻省理工科技评论》本周刊文称,科大讯飞的语音识别技术已经深入至中国的各行各业,而这一过程中产生的大量数据反过来也在让技术变得更强大。
以下为文章全文:
当 46 岁的北京市民徐刚(Gang Xu,音)需要与加拿大的租客就租金或电费账单沟通时,他会打开智能手机上名为“讯飞输入法”的应用,点击看起来像是麦克风的图标,随后开始说话。这款软件将他的中文语音消息转换为英文文本消息,并发送给加拿大的租客。软件还可以将租客用英文编写的文本消息转换为中文文本消息,从而创造出双语对话的无缝循环。
在中国,有超过 5 亿人使用讯飞输入法来解决类似徐刚的沟通障碍。某些人在开车时使用语音功能去发送短信,而另一些人则使用该工具与操其他方言的中国人交流。这款应用由中国的人工智能公司科大讯飞开发。该公司将深度学习技术应用于语音识别、自然语言处理、机器翻译和数据挖掘等领域。
法庭使用科大讯飞的语音识别技术来听写冗长的诉讼程序;商业呼叫中心使用语音合成技术来生成自动回复;而受欢迎的中国打车应用滴滴也使用科大讯飞的技术来向司机广播订单。
然而,尽管语音识别和即时翻译等技术已经取得了长足的进步,让徐刚可以与他的加拿大租客交流,但让机器去理解和翻译语言仍是挑战巨大的任务。
徐刚回忆,有一次他问租客,什么时候下班过来续签租约,这时软件发生了理解错误。当时,该软件发送的短信是:“你今天什么时候去上班?”徐刚怀疑,这是由于他的提问方式,因为当时的具体问题是:“你今天要上班到什么时候?”他表示:“某些时候,取决于具体语境,我无法准确表达自己的意思。”不过,他仍然依靠讯飞输入法去沟通。
徐刚的遭遇也证明,为何对类似科大讯飞这样的公司来说,尽可能多地从现实世界互动中收集数据如此重要。自 2010 年发布以来,这款免费软件一直在收集这些数据。
科大讯飞的开发者平台,即讯飞开放平台,为智能家居和移动互联网等多个行业的 40 余万开发者提供了基于语音的人工智能功能。该公司目前估值为 800 亿元人民币(约合 120 亿美元),同时也在关注国际市场。科大讯飞已经在美国成立了子公司,同时也在拓展除中文以外的其他语言。与此同时,科大讯飞也在改变中国交通、医疗和教育等行业与用户互动的方式。
今年 8 月,科大讯飞推出了名为“小飞鱼”的司机语音助手。为了保障安全驾驶,这款产品没有提供屏幕和按钮。在连接互联网和司机的智能手机之后,设备可以通过语音命令打电话、播放音乐、查找路线,以及搜索餐厅。与瞄准家庭用户的语音助手不同,小飞鱼的设计就是为了在嘈杂环境中识别语音。
中国另一家专注于人机语音交互技术的公司思必驰(AISpeech)副总裁初敏表示,从某些方面来看,面向司机的语音助手要比智能手机内置的虚拟助手,以及智能音箱更有前景。当司机的双眼和双手被占据时,语音命令会更有意义。此外,一旦司机习惯于用语音来完成操作,那么这样的助手就可以成为内容分发渠道,向司机推荐娱乐选择,而不仅仅是被动地处理请求。这将带来全新的商业模式。
在医疗行业,尽管人工智能有望降低成本,改善治疗效果,但许多医院担心,这将扰乱供需平衡已经紧张的医疗系统,因此并不愿意冒险。
安徽省立医院正在使用人工智能开展一系列试验。例如,该医院利用语音技术去改革服务的多个方面。在门诊大厅里,10 名“机器人女孩”使用科大讯飞的技术充当语音助手,给繁忙的问询处提供帮助。病人可以告诉语音助手,他们的症状是什么,而这些助手会指导他们挂什么科室的号。
基于该医院自 6 月份以来收集的数据,语音助手提供指导的准确率已达到 84%。
医院医生也在使用科大讯飞的技术,通过移动应用去记录病人的生命体征、药物记录,以及其他信息。这款应用随后将把所有信息转换为文字记录。该应用使用声纹技术作为签名系统,因此信息无法被篡改。与此同时,该应用不断收集数据,优化算法。
研究自然语言处理的北京大学教授万小军指出,尽管基于语音的人工智能技术在多种场景中都越来越有用,但基础性挑战依然存在:机器无法理解它们产生的答案。人工智能对语音命令的响应是通过在海量数据中搜索具有相关性的答案,实际上并不真正理解自己所说的内容。
换句话说,当前语音助手使用的自然语言处理技术基于一套严格的规则,这也导致了徐刚遭遇的问题。
如果可以对机器处理语言的方式进行变革,那么企业就可以开发出能深入人们日常生活的语音智能设备。初敏表示:“任何人如果能在自然语言处理领域取得突破,都可以在市场上获得优势。”