8 月 28 日,智能语音交互技术公司思必驰宣布,阿里 iDST 总监初敏博士加入思必驰,担任思必驰 VP、思必驰北京研发院院长,拓展语音技术在物联网外的新业务、新场景的落地。
初敏原来的团队交给了阿里 iDST 语音组总监鄢志杰管理,“他很能干的”。
在接受雷锋网专访时,初敏表示自己选择加入思必驰的原因主要是,“对人工智能特别是语音交互的未来的观点”和后者很一致,而且创业公司可以做到十分专注。
加入思必驰后,初敏将领导建立思必驰北京研发院,初期目标是在一年左右建立 50 人的团队,二年达到 100 人的规模。研发院不仅将进行基础技术的研究,也将探索语音在更多场景里的应用。
研发团队(附专访)" />
关于初敏博士
初敏是中科院声学所博士,主要研究方向覆盖语音识别与合成、自然语言处理、机器学习和数据挖掘、大数据处理和计算等,在相关领域发表了近百篇学术论文并取得 20 多项国内外专利。
2000 年,初敏博士加入微软,在微软亚洲研究院从事科学研究近 10 年,创建并领导语音合成研究小组,研制出了第一个中英文双语语音合成系统“木兰”;
2009 年入职阿里巴巴,担任阿里 iDST 智能语音交互方向负责人,使 Yun OS、支付宝、手机淘宝、钉钉等产品具备语音交互能力;
2017 年加入思必驰,担任思必驰 VP、思必驰北京研发院院长,拓展语音技术在物联网外的新业务、新场景的落地。
以下为采访实录,雷锋网作了不改变原意的删减。
雷锋网:为什么离开阿里加入思必驰?
初敏:其实我跟老高(高始兴)和俞凯很早以前就认识了,但是没有聊这方面的事。在阿里八年,感觉也是时候迎接一些新的变化和挑战,陆续收到很多大公司的橄榄枝,恰巧最近有些机会和老高深聊,我觉得我们对人工智能特别是语音交互的未来的观点其实蛮一致的。
未来的 3 到 5 年是一个 AI 技术实用化成型的过程,是我们的一个共识。跟俞凯也谈了很多技术,包括深度学习怎么在自然语言中去更好的应用,怎么能让机器更快地从人这里学习。我觉得蛮谈得来的,有很多共识做事会很方便,这是一个很重要的原因。
阿里的团队是我建起来的,团队来说我们是一个相当好的团队。公司大有大量的好处,比如资金更充足资源更丰富一些,数据、计算能力这种技术环境会更好,但是思必驰专注只做一件事情的公司,这对我来讲是有吸引力的。
其实也跟朋友聊是不是要创业,我觉得自己还没有这个勇气自己去创业,哈哈,这个过程太痛苦了。
但是加入一个思必驰这样在创业过程的公司,对我来说逃避了最开头的那一段,希望通过我的加入能帮助这家公司更快地成长。
雷锋网:加入思必驰后,对于将来的工作有什么样的规划?
初敏:因为其实就是这两天的事情。我们希望做的事情是,原来思必驰基本上的团队是在苏州,至少技术团队是,北京这边几乎没有技术人员,但是其实北京是人才最丰富的地方,所以我会在北京建立一个北京的研发院。
这个研发院会做一些核心技术的研发,也会做一些工程上的,包括真正在应用场景中的一些落地。不只是把原来的东西做得更精细,而是开辟出更多新场景,使整个语音交互为核心的技术能有更强更多的辐射面。
我们这些做技术出身的人,就是希望自己做的技术真的被很多人用,这是最大的成功。挣多少钱是附带的,因为这个过程中不挣钱的话做不到那一步,只要能做到那步一定能挣到钱。但是最大的是自我的成就感,一定是来自于很多人用而且感觉很好。
雷锋网:关于北京团队的规划您现在有比较详细的一些想法吗?
初敏:在规划之中,主要思路是主要以研发人员为主,核心技术以及工程落地的,以后可能会有一些业务落地的。
希望在一年左右能招到 50 人左右,两年左右可能是一百人的规模。
细的东西还要更细致地做工作以后才能把详细计划落实,但是现在开始我们也开始在招聘,包括北京新的 HR 开始要招募了。因为原来都是苏州整个管掉,现在也会在这配套。
雷锋网:语音识别公司现在是不是到了拼市场份额,合作案例经验积累的时候了,研究上的进步只是锦上添花,不起决定作用?
初敏:我们建立的团队不是一个纯研究的团队。今天我觉得中国所有的团队都不是一个像以前在微软 MSRA 一样的研究团队,包括 iDST 也不是。
北京的团队我称之为研发,有研究的成员,但最终一定是开发成一个完整的东西,然后这个东西是可以用的。
你刚才说的这个,我有非常多的实践经验,特别是在过去这几年碰到了很多用户的实际问题,的确是这样子的。但是也不能说技术就是锦上添花,而是说这两个腿都不能短。一个是核心技术的研发,一个是所谓的工程导向或者是产品导向。总而言之,要把产品用户体验做到完备两个都必须有。
我们在两块都会做,思必驰不是定位在产业链条的某一个环节,而是希望至少把语音交互这个完整场景做出来,包含了链条中的每个环节。
因为这个过程是相辅相成的,过程有好多环节,这些环节是个链条,只要有一个链条出问题,最后的用户体验就会很差。所以要把整个链条闭合,从核心技术到平台到产品一直到用户体验。
链条上的基础建设,好多都是核心技术,比如语音识别本身深度学习的建模技术可以做到更好。
但是下一个问题是如果数据是在A场景采集的,拿到B场景不好了,模型换成B场景可能不太好了,那么要多快,用什么样的数据规模,多长时间把它带过去,这时候会有一个困难的转移过程。可以从头到尾训,也可以做 Transfer Learning,这个就是比核心技术了。
但是话又说回来,最终还是需要一个链条。最后希望达到的是,客户给我上传,比如说多少多少小时的一个标准数据,我很快就得到一个模型,那在他这个地方就好了。所以实际上是场景的适应能力,解决一些这样的问题,最终才能大规模的把这个技术铺开。
我在这边也会去搭建这种基础设施,核心实力我认为就是快。对于核心实力我一直认为,特别是在今天这种所谓的大数据时代,数据很多(理论上很多,但实际上分散在不同领域)。要把数据管理好,把不同场景的数据更好地用起来,包括在一个新的场景中用起来。这里就有核心算法的的提升空间了,也有很多工程上要把这件事情做顺畅的方面。
还是刚才说的,这两个腿都做起来,迭代效率快,那你将来去实施就很快,才真正具备商业化的能力,要不然都是A项目B项目C项目,做一个项目花的成本差不多,那就很辛苦。
我们要做到的是,做第一个项目,比如花费是1,第二个项目花费可能是 0.5,第三个项目花费就是 0.3 了,以后可能每一个项目生成就是花个 0.1、0.15 的代价,甚至做到更低,这时候才能从一个到一百个或者到几百个。
磨就是这个过程。每复制一次,成本都下降,实现规模化,最终产生经济效益。
雷锋网:对于场景落地这块您有什么规划吗?
初敏:思必驰在一些现有的地方还是蛮强的,比如在汽车,特别是后装,还有智能家居包括音箱,其实好多家用的都是我们的解决方案。
我希望我进来不是在这些地方添点砖加点瓦,而是会试图去探索一些新场景,现在有很多可能性,是什么今天还没有完全弄清楚。所以会从招聘开始,和底层一些技术建设,场景还是要慢慢看的,没有那么快,但是一定会去探索更多的,我相信是很多的。
雷锋网:有没有想法做一个消费品牌?
初敏:目前还没有,原因也比较清晰,就是实际上这个链条很长,如果我们什么都做了,很有可能做不好。而且做了这个端实际上和别的端是竞争的关系,所以今天我觉得可能不会往实际产品做,但是也不排除自己去做一两个 demo,更好地展示技术。
雷锋网:您怎么看现在火爆的智能音箱?
初敏:我觉得蛮有争议的,不是特别看好。首先,我觉得 Echo 是不是真的叫成功,就是看你怎么定义成功,如果从品牌、影响的角度来看,是挺成功的,因为它利用了这整个潮流,出了影响,一堆人跟着做。
但是我也跟有些人聊过,实际上它的粘性并不见得好,大家因好玩新鲜,所以买了一个回家,但是有多少人在买回家三个月后还在天天用,很少。换句话说这个音箱是不是真的解决了问题,变成一个必需品,这个问题没有看到。
美国市场和中国市场也不太一样,美国市场大概只听到这两个(Echo 和 Google Home)。中国没有这样的领导产品,一堆公司在做。中国今天最大的问题还是没解决核心问题,很多人只是买它来玩一下,知道它能干啥,之后可能就没兴趣了,真的有什么事总找音箱做的很少。
有几个原因,一是他上头能干的事情真的太少了,一个东西必须让我觉得能信赖他,至少一类事情我持续找它,它都能做,对这我才会养成习惯。所以我觉得这不光是语音技术的问题了,是背后他到底能干什么事。今天还大家还称之为音箱,那就是听音乐,那显然这样子的音箱听音乐都不是最好的选择,就是大几百块钱的音箱,也不是好到哪里的。
Echo 稍微好一点,接入了很多控制功能,美国人房子大,在楼上关下楼下的灯什么的,这种需求可能还稍微强一点,在中国没有这么强,当然从某种角度讲还是存在的。
所以我觉得最后的争论不是技术问题,不是说语音识别准不准(当然它也有问题),是说它能听懂的话,我想干的事情里他能做多少,这是我觉得最关键的。
雷锋网:这几年智能语音交互借着新的 AI 技术实现了快速的发展,不过前段时间也看到一些观点,说深度学习正遇到瓶颈。所以想问,您认为语音识别、NLP 这块,在接下来几年技术上会有怎样的发展,是否会遇到瓶颈?
初敏:深度学习到今天虽然已经很火了,好像已经到处都是了,一般相关的学术会议可能至少一半或者更高的论文都和它相关。但是我今天的观点是还没有到饱和期,技术的替代是一个过程。就像语音识别从深度学习获得的第一步成功,是在原有的 HMM 框架后加了一块,把原来的模型提升了。
所以这个(技术替代)过程中还是有很多尝试可以做的。语音现在的这套统计的深度学习框架,不是一个完全的理论推导的技术,是有个基本的理论框架,最后它是否 work,是靠实验来做的。
包括它们的拓扑结构,建模单元的大小,因为起步都是依赖原来那套体系,所以后续能做的事情还有很多,比如变一变建模单元。会慢慢的把原来的那些东西换掉,然后去尝试新的东西,像现在很多新的模型其实就是在改变单元,因为单元一大解码速度就快很多。
另外一方面是场景适应,传统我们叫它 adaptation,或者你也可以叫它 Transfer Learning,这块也可以尝试不同的方法。
还有,语音里头现在更多是声学模型上用了深度学习,语言模型上有尝试,但没有特别的成功,因为语言模型计算复杂度高。但是今天鸡肋并不证明这个方法不对,而是还没有做出最好的方法,这一部分也有很多人在尝试。所以我觉得至少还有个五年、十年的空间它才会饱和。
但是,也不排除在这个过程中会长出新的分支,比这个看起来还更优秀,那也是有可能的,特别是在自然语言上,我觉得空间更大。
我觉得自然语言处理还处于非常早期的阶段。语音的识别很难,但是他是一个定义非常清晰的问题,进去这段录音出来就是这个字,没有二义性,所以是最适合学习。自然语言是问题没定义清楚,你可以这样定义问题,把它定一个分类问题,也可以把它变成一个序列转换问题,而且一个任务是由好多小问题组成,还是作为一个整体。所以在自然语言里还需要想怎么更好地使用深度学习,包括可能需要引入强化学习的概念,那么要怎么引入?
比如强化学习里一直担心什么是 reward,怎么定义成功失败,有很多这些问题。这块明显的还能走更长,包括问题怎么定义法,以前分的小问题是不是可以用一个问题就能解等,这些地方我觉得有很多可尝试的空间。