[发明专利]一种全音素框架下的通用语音唤醒识别方法及系统在审
申请号: | 201710002097.3 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108281137A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 徐及;张震;李文凤;李鹏;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/183;G10L17/02;G10L17/04;G10L19/16;G10L25/30 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音素 唤醒 解码结果 神经网络 声学模型 通用语音 支持向量机分类器 预处理 通用声学模型 向量机分类器 解码 多维统计 后期处理 后验概率 解码过程 解码路径 解码网络 输入解码 输入语音 输入支持 训练样本 语音特征 三音子 统计量 虚警率 声学 建模 升高 分类 分析 网络 成功 | ||
本发明公开了一种全音素框架下的通用语音唤醒识别方法及系统,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。本发明的方法对全部无调音素扩展得到的三音子状态进行建模得到的是通用声学模型,解码过程中限制解码路径,可以提高唤醒性能,同时结合后期处理部分通过对每条路径上音素后验概率等多维统计量进行分析,消除虚警率升高的隐患。
技术领域
本发明涉及语音唤醒领域,特别是一种全音素框架下的通用语音唤醒识别方法及系统。
背景技术
随着语音识别技术的飞速发展,语音识别技术得到广泛地应用,其中语音唤醒技术在智能手机以及智能家居中的应用正在日益改变着人类的生活和生产方式。而传统的语音唤醒识别系统一般是针对特定唤醒词构建(即通过用户预定的唤醒词来触发系统),而现有的方法主要有两种,一种是基于动态时间弯折(dynamic time warping,DTW)方法利用语音的声学特征进行动态匹配,首先需要提前录制若干同一条唤醒词的语音,其次将现场采集到的唤醒词语音与提前录制的语音通过声学特征进行动态匹配。这种方法主要针对特定的说话人、特定的场景以及特定的唤醒词系统。第二种是依赖于高斯混合模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)训练只包含特定唤醒词和garbage的模型,这种系统针对非特定人、非特定场景以及特定唤醒词,精度有所提高。以上提及到的两种目前的系统有一个共同的缺点通用性较差,面对当下语音唤醒广泛应用的时代,更换定制词和场景成本较高成为一大难题。
发明内容
本发明的目的在于克服目前语音唤醒识别系统存在的上述问题,通过训练通用声学模型来实现语音唤醒系统快速定制,并结合限制解码路径以及后期处理,克服更换定制词成本高的难题。
为了实现上述目的,本发明提出了一种全音素框架下的通用语音唤醒识别方法,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。
上述技术方案中,所述方法具体包括:
步骤1)训练深度神经网络声学模型;
步骤2)根据唤醒词修改词典,使词典中只保留唤醒词、filler以及garbage的词条;根据词典构造基于filler的解码网络;
步骤3)根据训练样本训练支持向量机分类器;
步骤4)对输入的语音信号的原始语音进行分段和消除噪声,再进行特征的提取;
步骤5)将语音的特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;如果识别成功,进入步骤6),否则,转入步骤8);
步骤6)将解码结果中对应的每个音素所占用的时长、音素的后验概率以及置信度等统计量输入支持向量机分类器,如果分类器输出的结果为1,则解码结果正确,转入步骤7);否则,解码结果错误;转入步骤8);
步骤7)输入语音正确,唤醒成功;
步骤8)输入语音错误,唤醒失败。
上述技术方案中,所述步骤1)具体包括:
步骤1-1)建立训练样本,训练样本为带文本标注的远讲语音;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710002097.3/2.html,转载请声明来源钻瓜专利网。