谷歌发布Tacotron 2：能更简单地训练AI学习演讲_最新动态

您所在的位置：程序员俱乐部 > 新闻资讯 > 最新动态 > 谷歌发布Tacotron 2：能更简单地训练AI学习演讲

谷歌发布Tacotron 2：能更简单地训练AI学习演讲

2017/12/20 15:56:13 程序员俱乐部我要评论(0)

摘要：北京时间12月20日午间消息，谷歌目前在人工智能语音技术方面处于领先，而这样的领先优势很可能得到进一步巩固。谷歌周三发布了Tacotron2。这是一种训练神经网络的新方法，可以在几乎没有任何语法专业性的情况下从文本中生成演讲。这项新技术利用了谷歌此前在语音生成方面最强大的两种技术：WaveNet和第一代Tacotron。WaveNet每次能生成一段讲话音频。尽管效果很好，但WaveNet需要用到大量关于语言的元数据，包括发音，以及已知的语言特征等等。Tacotron则综合了更多高级特性
标签：学习发布谷歌演讲 Ron

　　北京时间 12 月 20 日午间消息，谷歌目前在人工智能语音技术方面处于领先，而这样的领先优势很可能得到进一步巩固。谷歌周三发布了 Tacotron 2。这是一种训练神经网络的新方法，可以在几乎没有任何语法专业性的情况下从文本中生成演讲。

　　这项新技术利用了谷歌此前在语音生成方面最强大的两种技术：WaveNet 和第一代 Tacotron。

　　WaveNet 每次能生成一段讲话音频。尽管效果很好，但 WaveNet 需要用到大量关于语言的元数据，包括发音，以及已知的语言特征等等。Tacotron 则综合了更多高级特性，例如语调和韵律，但并不能生成最终的演讲音频。

　　Tacotron 2 结合了以上两者的优势，或许已经发挥出了当前技术专业性的极限。Tacotron 2 使用文本和文字叙述来计算所有语言规则，而不再需要人工明确告知系统规则。文本本身被转换为 Tacotron 风格的“梅尔频谱”，实现节奏和强调。而单词本身则基于 WaveNet 风格的系统来生成。

　　由此产生的音频比以往更好。演讲的节奏感很好，但对于不太直观的单词，发音可能有问题。这或许是由于，单词的来源不是美式英语，这样的单词包括 Decorum 和 Merlot。研究者表示：“在极端情况下，可能会随机产生奇怪的噪声。”

　　此外，尽管口音和其他语言细节可以通过与 WaveNet 的交流而输入，但仍然没有任何方式去控制演讲的语调情绪，例如乐观或担忧。

　　降低系统训练障碍意味着可以训练更多更好的系统。研究人员已经将研究成果提交至 IEEE 国际声学语音和信号处理大会，论文已发表至 arXiv。

上一篇： 92年女生回应360关闭直播：不够诚恳周鸿祎需向我道歉下一篇：亚马逊宣布运输包装盒回收计划用于寄出慈善物品