[发明专利]一种基于分层循环神经网络语言模型的语音识别方法在审

申请号：	201611059843.4	申请日：	2016-11-25
公开（公告）号：	CN106782518A	公开（公告）日：	2017-05-31
发明（设计）人：	夏春秋	申请（专利权）人：	深圳市唯特视科技有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/183;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市高新技术产业园***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分层循环神经网络语言模型语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别领域，尤其是涉及了一种基于分层循环神经网络语言模型的语音识别方法。

背景技术

随着现代技术的发展，基于循环神经网络(RNN)的字符级语言模型(CLMs)在语音识别、文本生成和机器翻译等领域应用广泛。它对于自然界中未见的单词的建模非常有用。然而，它们的性能通常比词级语言模型(WLMs)差得多。而且，统计语言模型需要大的存储空间，通常超过1GB，因为不仅要考虑大量的词汇，还需要考虑它们的组合。

本发明提出了一种基于分层循环神经网络语言模型的语音识别方法，其分级RNN架构由具有不同时钟速率的多个模块组成。尽管是多时钟结构，但是输入层和输出层都是以字符级时钟操作，这允许现有的RNN字符级语言模型训练方法可以直接应用而不需要任何修改。首先使用RNN的字符级语言建模，接着用外部时钟和复位信号扩展RNN结构，具有分级RNN的字符级语言建模，最后进行语音识别。本发明用基于分层循环神经网络语言模型替换传统的单时钟RNN字符级语言模型，具有更好的识别精度，降低了参数的数量；语言模型词汇量大，需要的存储空间更小；分层语言模型可以被扩展以处理更长时期的信息，例如句子，主题或其他上下文。

发明内容

针对识别精度不高，所占存储空间大等问题，本发明的目的在于提供一种基于分层循环神经网络语言模型的语音识别方法，首先使用RNN的字符级语言建模，接着用外部时钟和复位信号扩展RNN结构，具有分级RNN的字符级语言建模，最后进行语音识别。

为解决上述问题，本发明提供一种基于分层循环神经网络语言模型的语音识别方法，其主要内容包括：

(一)使用RNN的字符级语言建模；

(二)用外部时钟和复位信号扩展RNN结构；

(三)具有分级RNN的字符级语言建模；

(四)进行语音识别。

其中，所述的基于分层循环神经网络语言模型，结合了字符级和词级语言模型的有利特性；循环神经网络(RNN)由低级RNNs和高级RNNs组成；低级RNN采用字符级输入和输出，并且向作为词级RNN操作的高级RNN提供短期嵌入；高级RNN不需要复杂的输入和输出，因为它从低级网络接收特征信息，并且以压缩形式将字符预测信息发送回低级；因此，当考虑输入和输出时，所提出的网络是一个字符级语言模型(CLM)，但它包含一个词级模型；低级模块使用字符输入时钟，而高级模块使用分隔字的空格(<w>)运行；该分层语言模型可以被扩展，以处理更长时期的信息，例如句子，主题或其他上下文；分层语言模型可以用基于文本的字符来进行端对端训练。

其中，所述的使用RNN的字符级语言建模，对于训练RNN CLMs，训练数据应首先转换为独热编码字符向量序列x_t，其中字符包括字边界符号<w>，或空格，以及可选的句子边界符号<s>；训练RNN，通过使表示下一个字符的概率分布的softmax输出的交叉熵损失最小化来预测下一个字符x_t+1。

其中，所述的用外部时钟和复位信号扩展RNN结构，大多数类型的RNNs可以被概括为

s_t＝f(x_t,s_t-1)(1)

y_t＝g(s_t)(2)

其中，x_t是输入，s_t是状态，y_t是时间步骤t的输出，f(·)是递归函数，g(·)是输出函数；例如，Elman网络可以表示为

s_t＝h_t＝σ(W_hxx_t+W_hhh_t-1+b_h)(3)

y_t＝h_t(4)

其中，h_t是隐层的激活，σ(·)是激活函数，W_hx和W_hh是权重矩阵，b_h是偏置向量；

具有遗忘门和窥视孔连接的LSTMs也可以转换为泛化形式；LSTM层的前向方程如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司，未经深圳市唯特视科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】