[发明专利]一种全音素框架下的通用语音唤醒识别方法及系统在审
| 申请号: | 201710002097.3 | 申请日: | 2017-01-03 |
| 公开(公告)号: | CN108281137A | 公开(公告)日: | 2018-07-13 |
| 发明(设计)人: | 徐及;张震;李文凤;李鹏;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/183;G10L17/02;G10L17/04;G10L19/16;G10L25/30 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;杨青 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音素 唤醒 解码结果 神经网络 声学模型 通用语音 支持向量机分类器 预处理 通用声学模型 向量机分类器 解码 多维统计 后期处理 后验概率 解码过程 解码路径 解码网络 输入解码 输入语音 输入支持 训练样本 语音特征 三音子 统计量 虚警率 声学 建模 升高 分类 分析 网络 成功 | ||
1.一种全音素框架下的通用语音唤醒识别方法,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。
2.根据权利要求1所述的全音素框架下的通用语音唤醒识别方法,其特征在于,所述方法具体包括:
步骤1)训练深度神经网络声学模型;
步骤2)根据唤醒词修改词典,使词典中只保留唤醒词、filler以及garbage的词条;根据词典构造基于filler的解码网络;
步骤3)根据训练样本训练支持向量机分类器;
步骤4)对输入的语音信号的原始语音进行分段和消除噪声,再进行特征的提取;
步骤5)将语音的特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;如果识别成功,进入步骤6),否则,转入步骤8);
步骤6)将解码结果中对应的每个音素所占用的时长、音素的后验概率以及置信度等统计量输入支持向量机分类器,如果分类器输出的结果为1,则解码结果正确,转入步骤7);否则,解码结果错误;转入步骤8);
步骤7)输入语音正确,唤醒成功;
步骤8)输入语音错误,唤醒失败。
3.根据权利要求1所述的全音素框架下的通用语音唤醒识别方法,其特征在于,所述步骤1)具体包括:
步骤1-1)建立训练样本,训练样本为带文本标注的远讲语音;
步骤1-2)建立深度神经网络声学模型;模型的输入层为远讲语音的声学特征;输出为样本被分为每一类的后验概率;
步骤1-3)训练深度神经网络声学模型;
首先随机初始化神经网络参数,训练样本进行前向计算,利用损失函数对网络的输出和标注计算误差,进行误差反向回传,调整神经网络参数,反复迭代,直到神经网络收敛低于某一个阈值或者学习率达到设定。
4.根据权利要求2所述的全音素框架下的通用语音唤醒识别方法,其特征在于,所述步骤2)具体包括:
步骤2-1)通过语言学的先验知识,将无调音素聚类为15种filler;
步骤2-2)构建发音字典的树形词典;该树形词典又称为前缀树,在此前缀树的发音词典搜索网络中只存在唤醒词、filler以及garbage路径。
5.根据权利要求2所述的全音素框架下的通用语音唤醒识别方法,其特征在于,所述步骤3)的具体实现过程为:
提取解码结果对应的每个音素所占用的时长、音素的后验概率以及置信度统计量,根据正样本测试集中正确结果的统计量与负样本测试集中虚警结果的统计量训练一个支持向量机分类器,用于区分唤醒和虚警。
6.一种全音素框架下的通用语音唤醒识别系统,所述系统包括:深度神经网络声学模型训练模块、解码网络建立模块、支持向量机分类器训练模块、语音处理模块、解码器、分类模块和输出模块;
所述深度神经网络声学模型训练模块,用于通过标注的训练样本训练出深度神经网络声学模型;
所述解码网络建立模块,用于根据唤醒词修改词典,使词典中只保留唤醒词、filler以及garbage的词条;根据词典构造基于filler的解码网络;
所述支持向量机分类器训练模块,用于根据正样本测试集中正确结果的统计量与负样本测试集中虚警结果的统计量训练一个支持向量机分类器;
所述语音处理模块,用于对通过麦克风输入的语音信号进行分段和消除噪声,再进行特征的提取,然后输入到解码器中;
所述解码器,用于对所述语音处理模块输出的语音进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;如果语音识别成功,输入分类模块,否则,发送唤醒失败的信息到输出模块;
所述分类模块,用于将解码结果中对应的每个音素所占用的时长、音素的后验概率以及置信度等统计量输入支持向量机分类器,如果分类器输出的结果为1,则解码结果正确,将唤醒成功的信息发送到输出模块;否则,解码结果错误;将唤醒失败的信息发送到输出模块;
所述输出模块,用于输出唤醒结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710002097.3/1.html,转载请声明来源钻瓜专利网。





