日前,阿里巴巴披露了自然语言处理技术取得的两项新成绩:在全球顶级的知识库构建测评 KBP2017 中,斩获英文实体发现测评全球冠军;在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个 level 中全面夺得冠军,核心指标比其他参赛机构高出一倍。
上述两项成绩均来自司罗领导的 iDST 自然语言处理团队。司罗现任 iDST 自然语言处理首席科学家,曾为美国普渡大学计算机系终身教授。这支团队支持了阿里巴巴内部的大量自然语言处理工作以及在阿里云上的输出。
两场比赛中,KBP 是由 NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)指导、美国国防部协办的赛事,主要任务为从自然书写的非结构化文本中抽取实体,以及实体之间的关系。这次测评吸引了全球 20 多支顶尖团队参与,包括 IBM Research, BBN, Stanford Univ, CMU Univ, UIUC
Univ, Columbia Univ,腾讯等。
测评要求 AI 算法在“读完”一篇英文文章后,构建一个物理世界的命名实体和实体之间关系的知识库,如“克林顿和希拉里之间是夫妻关系”、“克林顿毕业于耶鲁法学院”这样一个个实体的关系。
另一场比赛,中文语法错误自动诊断大赛(Chinese Grammatical Error
Diagnosis,以下简称 CGED)由 IJCNLP 联办,今年已是第四届。比赛的背景是:学习中文的外国人数不断增加,由于中文的博大精深,外国友人在中文写作中会出现语法错误。主办方挑选了一些外国友人写的中文作文片段,希望参赛者用人工智能算法自动识别里面的语法语义错误。
因为语法纠错任务涉及到很多自然语言的基础技术,如分词、句法分析、词法分析、依存关系以及语义分析等,是对研究机构综合技术实力的全面考验。
参与比赛的技术均来自阿里巴巴实际业务中。在阿里巴巴内部,自然语言处理技术已经被广泛应用,每天有多达 600 亿次的请求。比如,司法拍卖中 AI 能够根据拍卖文档抽取出汽车品牌、型号、注册日期、房产地址、小区等信息,不再需要人工填写。AI 还能够读取商品说明书后,解答顾客的一些提问。
司罗表示:“很荣幸能够同全球的同行分享阿里巴巴的研究成果,人工智能在对于自然语言的理解还处在起步阶段,要实现真正的语义理解还需要5-10 年的跨越。我们正在积极和同行业顶尖机构学习交流,推动行业发展”。
司罗认为,自然语言处理是实现强人工智能的非常重要的一环,而且重要性会越来越显现。感知层面的事情越来越成熟了,认知层面也得跟上了。虽然有很大的鸿沟摆在面前,但这是必须要跨越的。“因为 NLP 技术是达到强人工智能的路上必须攻克的关键节点”。