multi head attention 语音识别 2016年10月17日什么的语音识别系统实现了5.9%的词错率( 二 )


虽然结果很吸引人 , 但是研究人员认为目前的探索还尚未完成 。 第一 , 这些模型还不能实时地处理语音 [8,9,10] , 而实时处理对于延迟敏感的应用如语音搜索而言是必要的 。 第二 , 这些模型在实际生产数据上进行评估的时候表现仍然不佳 。 第三 , 谷歌目前的端到端模型是在 22,000 个录音-文本对上学习的 , 而传统系统通常可以在显著大得多的语料库上进行训练 。 最后 , 新模型还不能为生僻词学习合适的拼写 , 例如专有名词(一般还需要使用手动设计的 PM) 。 谷歌接下来的目标将是解决这些问题 。
论文:State-of-the-art Speech Recognition With Sequence-to-Sequence Models

multi head attention 语音识别 2016年10月17日什么的语音识别系统实现了5.9%的词错率

文章插图

论文链接:https://arxiv.org/abs/1712.01769
摘要:基于注意力机制的编码器-解码器架构 , 如 Listen、Attend 和 Spell(LAS)可以将传统自动语音识别(ASR)系统上的声学、发音和语言模型组件集成到单个神经网络中 。 在我们以前的工作中 , 我们已经证明了这样的架构在听写任务中与业内顶尖水平的 ASR 系统具有相当水平 , 但此前还不清楚这样的架构是否可以胜任语音搜索等更具挑战性的任务 。
在本研究中 , 我们探索了多种优化和提升 LAS 模型的方法 , 其中的一些显著提升了系统表现 。 在结构上 , 我们证明了词块模型可以用来代替字素 。 我们引入了新型的多头注意力架构 , 它比常用的单头注意力架构有所提升 。 在优化方面 , 我们探索了同步训练、定期采样、平滑标签(label smoothing) , 也应用了最小误码率优化 , 这些方法都提升了准确度 。 我们使用一个单向 LSTM 编码器进行串流识别并展示了结果 。 在 12,500 小时的语音搜索任务中 , 我们发现新模型将 LAS 系统的词错率(WER)从 9.2% 降低到了 5.6% , 相对于目前业内最佳系统的 6.7% 提高了 16% 的水平 。
参考文献
[1] G. Pundak and T. N. Sainath,「Lower Frame Rate Neural Network Acoustic Models," in Proc. Interspeech, 2016.
[2] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals,「Listen, attend and spell,」CoRR, vol. abs/1508.01211, 2015
[3] R. Prabhavalkar, K. Rao, T. N. Sainath, B. Li, L. Johnson, and N. Jaitly,「A Comparison of Sequence-to-sequence Models for Speech Recognition,」in Proc. Interspeech, 2017.
[4] C.C. Chiu, T.N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R.J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski and M. Bacchiani,「State-of-the-art Speech Recognition With Sequence-to-Sequence Models,」submitted to ICASSP 2018.
[5] R. Prabhavalkar, T.N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.C. Chiu and A. Kannan,「Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models,」submitted to ICASSP 2018.
[6] B. Li, T.N. Sainath, K. Sim, M. Bacchiani, E. Weinstein, P. Nguyen, Z. Chen, Y. Wu and K. Rao,「Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model」submitted to ICASSP 2018.
[7] S. Toshniwal, T.N. Sainath, R.J. Weiss, B. Li, P. Moreno, E. Weinstein and K. Rao,「End-to-End Multilingual Speech Recognition using Encoder-Decoder Models」, submitted to ICASSP 2018.
[8] T.N. Sainath, C.C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen and Z. Chen,「Improving the Performance of Online Neural Transducer Models」, submitted to ICASSP 2018.
[9] C.C. Chiu and C. Raffel,「Monotonic Chunkwise Attention,」submitted to ICLR 2018.
[10] D. Lawson, C.C. Chiu, G. Tucker, C. Raffel, K. Swersky, N. Jaitly.「Learning Hard Alignments with Variational Inference」, submitted to ICASSP 2018.
[11] T.N. Sainath, R. Prabhavalkar, S. Kumar, S. Lee, A. Kannan, D. Rybach, V. Schogol, P. Nguyen, B. Li, Y. Wu, Z. Chen and C.C. Chiu,「No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models,」submitted to ICASSP 2018.


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: