“微软认知服务”(Cognitive Services)整合了一系列应用程序接口(API)、软件开发套件(SDK),以方便开发者们打造更加智能、直观、吸引人的应用程序。此外这些机器学习 API 可以向应用程序里添加各种智能特性,包括但不限于情感检测,面部、语音和视觉认知,以及语音和语言理解。不过本文要向大家介绍的,却是微软必应搜索引擎团队带来的新版 Bing Speech API 。
Bing Speech API,支持语音-文本(语音识别)和文本-语音(语音合成)的双向功能。前者(Speech-to-Text)可以将人类语音转换成计算机可以识别的输入指令,而后者(TTS)可以将文本转成语音输出。
昨天,微软在一篇博客文章中宣布,Bing Speech API 已经拓展支持六种语言(目前支持的总语言数量已达 34 种):
微软 AI Core - Speech 高级项目经理 Qingying Liao 在博客中声称,这 34 种语言可以在 48 种语言环境、以及 78 种口音下工作。
这些 TTS API 可以单独或结合其它认知服务一起使用,比如语音转文本和语言理解 API,从而打造出一套全面的在线式(或基于设备的)语音驱动解决方案。
最后,上述新增的 TTS 语言将于 2 月下旬在 Microsoft Translator Speech API 和微软翻译 app 中启用。
[编译自:Neowin]