multi head attention 语音识别 2016年10月17日什么的语音识别系统实现了5.9%的词错率

近日 , 谷歌发表博客介绍了他们对端到端语音识别模型的最新研究成果 , 新模型结合了多种优化算法提升 LAS 模型的性能 。 相较于分离训练的传统系统 , 新方法充分地发挥了联合训练的优势 , 在语音搜索任务中取得了当前业内最低的词错率结果 。
当前最佳语音搜索模型
传统自动语音识别系统(ASR)一直被谷歌的多种语音搜索应用所使用 , 它由声学模型(AM)、发音模型(PM)和语言模型(LM)组成 , 所有这些都会经过独立训练 , 同时通常是由手动设计的 , 各个组件会在不同的数据集上进行训练 。 AM 提取声学特征并预测一系列子字单元(subword unit) , 通常是语境依赖或语境独立的音素 。 然后 , 手动设计的词典(PM)将声学模型生成的音素序列映射到单词上 。 最后 , LM 为单词序列分配概率 。 独立地训练各个组件会产生额外的复杂性 , 最终得到的性能低于联合训练所有的组件 。 过去几年来出现了越来越多开发中的端到端系统尝试以单个系统的方式联合学习这些分离的组件 。 虽然相关文献表明这些端到端模型具有潜在价值 [2,3] , 但对于这样的方法是否能提升当前最佳的传统系统的性能 , 尚无定论 。
最近 , 谷歌发布了其最新研究 , 「使用序列到序列模型的当前最佳语音识别系统」(State-of-the-art Speech Recognition With Sequence-to-Sequence Models[4]) 。 这篇论文描述了一种新型的端到端模型 , 它的性能优于目前已商用的传统方法 [1] 。 在谷歌的研究中 , 新的端到端系统的词错率(WER)可以降低到 5.6% , 相对于强大的传统系统有 16% 的性能提升(6.7%WER) 。 此外 , 该端到端模型可以在任何的假设再评分(hypothesis rescoring)之前输出初始词假设 。 该模型的大小只有传统模型的 1/18 , 因为它不包含分离的 LM 和 PM 。
谷歌的新系统建立在 Listen-Attend-Spell(LAS , 在文献 [2] 中首次提出)端到端架构之上 。 LAS 架构由三个组件组成 。 listener 编码器组件 , 和标准的 AM 相似 , 取输入语音信号 x 的时间-频率表征 , 然后使用一系列的神经网络层将输入映射到一个高级特征表示 , henc 。 编码器的输出被传递到 attender , 其使用 henc 学习输入特征 x 和预测子字单元的 {y_n,...y_0} 之间的对齐方式 , 其中每个子字通常是一个字素或字片 。 最后 , attention 模块的输出被传递给 speller(即解码器) , speller 和 LM 相似 , 可以生成一系列假设词的概率分布 。

multi head attention 语音识别 2016年10月17日什么的语音识别系统实现了5.9%的词错率

文章插图

LAS 端到端模型的组件
LAS 模型的所有组件通过单个端到端神经网络联合地训练 , 相较于传统系统的分离模块更加简单 。
此外 , 因为 LAS 模型都是神经网络类型 , 因此并不需要添加外部的手动设计组件 , 例如有限状态转换器、词典或文本归一化模块 。 最后 , 和传统模型不同 , 训练端到端模型不需要决策树的引导或一个分离系统生成的时间序列 , 给定了文本副本和相关的声学特征之后 , 就可以进行训练 。
在文献 [4] 中 , 谷歌引入了一种新型的结构化提升 , 包括优化传递给解码器的注意力向量 , 以及优化更长的子字单元(即字片 , wordpieces)的训练过程 。 此外 , 谷歌在新模型中还引入了大量的优化训练过程的方法 , 包括最小词错率训练法(minimum word error rate training[5]) 。 正是这些结构化和优化提升使新模型取得了相对于传统模型 16% 的性能提升 。
这项研究的另一个潜在应用是多方言和多语言系统 , 仅需优化单个神经网络所带来的简单性是很有吸引力的 。 所有的方言/语言可以被组合以训练一个网络 , 而不需要为每个方言/语言分配分离的 AM、PM 和 LM 。 谷歌生成这些模型在 7 种英语方言 [6] 和 9 种印度方言 [7] 上都工作得很好 , 优于分离地训练模型的性能 。


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: