2011 年在智力精彩节目 Jeopardy 中和人类大战三百回合的沃森(Watson) 近几年一直在尝试商业化,并在去年的 5 月份投资 10 亿美元成立沃森集团,专注于人工智能的商业化运作。
今天,沃森开放五项功能给开发者测试,包括语音转文字、文字转语音、视觉识别、概念解读(concept insights)和多维分析(trade-off analytics)。其中最后一项的多维分析常见于商业决策中,可以根据一组数据和预期结果给出最佳选择。比如,IBM 演示了如何基于多个标准,如最小风险、最大长期收益等,选择最合适的互惠基金产品。其实,沃森还可以某个价位段性价比最高的手机,感觉人类的智商已经不够用的话可以找沃森来帮忙。
其余四项功能大多可以基于沃森现有的语料和数据库立即投入使用。概念解读如其字面意思,就是对你给出的概念进行解释,如你输入“太阳能”它会自动检索,输出与此相关的文章,类似于知识图谱索引。目前这项功能主要基于维基百科,但 IBM 并未说明是实时联网查询还是本地化的维基百科数据库。
文字转语音和语音转文字在智能手机上已经有提供,但直接通过 API 接口利用沃森的人工智能还是很值得期待的。在文字转语音方面,沃森输出的语音文本相对来说还比较自然,但仍旧免不了有一股机器人的味道。InfoWorld 记者在体验了语音转文字之后表示,沃森没能逃脱同类产品遇到的语音识别障碍,比如“他”把“go into”识别成了“guns”。
最后的视觉识别是一项比较有意思的功能。但其实早在去年 IBM 就与 Twitter 达成合作,分析 Twitter 上的照片流,用尽可能多的图片数据来训练沃森,此次开放这项功能给用户测试也多半是这个目的。在实际体验中,沃森会将画面中的物品分成不同的维度,并依次用百分比标注出可能性。对于这项面向开发者进行测试的服务,IBM 回避了识别的精度问题。在我的测试中,有几次会被告知“处理该项请求遇到问题”,不清楚是识别不出还是在照片上传中出现问题。但对于一些花花草草和人物的特写照片还是可以轻易识别的,甚至连一些没有明显主题,对比不鲜明还有点跑焦的照片也能分析得头头是道,比如下面这一幅图:
还不赶快来调戏一下沃森。
题图来自 cnmeonline