[发明专利]一种全音素框架下的通用语音唤醒识别方法及系统在审

申请号：	201710002097.3	申请日：	2017-01-03
公开（公告）号：	CN108281137A	公开（公告）日：	2018-07-13
发明（设计）人：	徐及;张震;李文凤;李鹏;颜永红	申请（专利权）人：	中国科学院声学研究所;国家计算机网络与信息安全管理中心
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/08;G10L15/183;G10L17/02;G10L17/04;G10L19/16;G10L25/30
代理公司：	北京方安思达知识产权代理有限公司 11472	代理人：	王宇杨;杨青
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音素唤醒解码结果神经网络声学模型通用语音支持向量机分类器预处理通用声学模型向量机分类器解码多维统计后期处理后验概率解码过程解码路径解码网络输入解码输入语音输入支持训练样本语音特征三音子统计量虚警率声学建模升高分类分析网络成功
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种全音素框架下的通用语音唤醒识别方法，所述方法包括：首先训练深度神经网络声学模型，根据唤醒词修改词典，构造基于filler的解码网络，并根据训练样本训练支持向量机分类器；对输入语音进行预处理，将处理后的语音特征输入解码网络进行解码，根据深度神经网络声学模型计算声学得分，得到解码结果；将识别成功的解码结果的统计量输入支持向量机分类器进行分类，得到最终的识别结果。

2.根据权利要求1所述的全音素框架下的通用语音唤醒识别方法，其特征在于，所述方法具体包括：

步骤1)训练深度神经网络声学模型；

步骤2)根据唤醒词修改词典，使词典中只保留唤醒词、filler以及garbage的词条；根据词典构造基于filler的解码网络；

步骤3)根据训练样本训练支持向量机分类器；

步骤4)对输入的语音信号的原始语音进行分段和消除噪声，再进行特征的提取；

步骤5)将语音的特征输入解码网络进行解码，根据深度神经网络声学模型计算声学得分，得到解码结果；如果识别成功，进入步骤6)，否则，转入步骤8)；

步骤6)将解码结果中对应的每个音素所占用的时长、音素的后验概率以及置信度等统计量输入支持向量机分类器，如果分类器输出的结果为1，则解码结果正确，转入步骤7)；否则，解码结果错误；转入步骤8)；

步骤7)输入语音正确，唤醒成功；

步骤8)输入语音错误，唤醒失败。

3.根据权利要求1所述的全音素框架下的通用语音唤醒识别方法，其特征在于，所述步骤1)具体包括：

步骤1-1)建立训练样本，训练样本为带文本标注的远讲语音；

步骤1-2)建立深度神经网络声学模型；模型的输入层为远讲语音的声学特征；输出为样本被分为每一类的后验概率；

步骤1-3)训练深度神经网络声学模型；

首先随机初始化神经网络参数，训练样本进行前向计算，利用损失函数对网络的输出和标注计算误差，进行误差反向回传，调整神经网络参数，反复迭代，直到神经网络收敛低于某一个阈值或者学习率达到设定。

4.根据权利要求2所述的全音素框架下的通用语音唤醒识别方法，其特征在于，所述步骤2)具体包括：

步骤2-1)通过语言学的先验知识，将无调音素聚类为15种filler；

步骤2-2)构建发音字典的树形词典；该树形词典又称为前缀树，在此前缀树的发音词典搜索网络中只存在唤醒词、filler以及garbage路径。

5.根据权利要求2所述的全音素框架下的通用语音唤醒识别方法，其特征在于，所述步骤3)的具体实现过程为：

提取解码结果对应的每个音素所占用的时长、音素的后验概率以及置信度统计量，根据正样本测试集中正确结果的统计量与负样本测试集中虚警结果的统计量训练一个支持向量机分类器，用于区分唤醒和虚警。

6.一种全音素框架下的通用语音唤醒识别系统，所述系统包括：深度神经网络声学模型训练模块、解码网络建立模块、支持向量机分类器训练模块、语音处理模块、解码器、分类模块和输出模块；

所述深度神经网络声学模型训练模块，用于通过标注的训练样本训练出深度神经网络声学模型；

所述解码网络建立模块，用于根据唤醒词修改词典，使词典中只保留唤醒词、filler以及garbage的词条；根据词典构造基于filler的解码网络；

所述支持向量机分类器训练模块，用于根据正样本测试集中正确结果的统计量与负样本测试集中虚警结果的统计量训练一个支持向量机分类器；

所述语音处理模块，用于对通过麦克风输入的语音信号进行分段和消除噪声，再进行特征的提取，然后输入到解码器中；

所述解码器，用于对所述语音处理模块输出的语音进行解码，根据深度神经网络声学模型计算声学得分，得到解码结果；如果语音识别成功，输入分类模块，否则，发送唤醒失败的信息到输出模块；

所述分类模块，用于将解码结果中对应的每个音素所占用的时长、音素的后验概率以及置信度等统计量输入支持向量机分类器，如果分类器输出的结果为1，则解码结果正确，将唤醒成功的信息发送到输出模块；否则，解码结果错误；将唤醒失败的信息发送到输出模块；

所述输出模块，用于输出唤醒结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心，未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710002097.3/1.html，转载请声明来源钻瓜专利网。

上一篇：赝表面声波聚焦器
下一篇：年龄判别模型训练及智能语音交互方法、设备及存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种全音素框架下的通用语音唤醒识别方法及系统在审

专利文献下载