[发明专利]语音唤醒方法和系统在审
申请号: | 201811081600.X | 申请日: | 2018-09-17 |
公开(公告)号: | CN109036412A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 王欢良;鄢楷强;张宏阳;沈旭晖;马殿昌;李显光 | 申请(专利权)人: | 苏州奇梦者网络科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/16;G10L15/20 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 韩凤 |
地址: | 215024 江苏省苏州市工业园区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学特征 现场语音 唤醒 神经网络分类 数据对应 语音帧 预设定 语音 原始语音数据 后验概率 唤醒系统 加窗操作 录入设备 信息输入 语音识别 原始数据 原始语音 阈值比较 置信度 音量 分帧 噪音 场景 | ||
本发明涉及一种语音识别唤醒方法及系统,其中方法包括以下步骤:对原始语音数据分帧加窗操作,以获取所述原始语音对应的语音帧,并提取所述语音帧的声学特征信息;将所述声学特征信息进行计算得到深度神经网络分类模型;录取现场语音数据,提取所述现场语音数据对应的声学特征信息,并将该所述现场语音数据对应的声学特征信息输入至所述深度神经网络分类模型,以得到后验概率信息;并将所述与预设定阈值比较,当所述置信度大于所述预设定阈值,唤醒语音录入设备。上述方法有效提升噪音场景下的唤醒性能;对原始数据进行语速、音高、音量等模拟,有效提升唤醒系统对不同说话人的适应性。
技术领域
本发明涉及语音识别领域,特别是涉及一种语音唤醒方法及系统。
背景技术
语音唤醒技术是语音识别领域中的一个重要分支,被广泛应用于手机终端、智能家居、车载导航等语音交互系统中,方便用户使用语音指令唤醒设备。更具体的,语音唤醒系统的任务是在后台不间断地从接收到的语音中自动检测出某个预先定义的唤醒词,一般也称为关键词检测(Keyword Spotting,KWS),当系统检测到相应的关键词时,设备即被唤醒,并进入特定的工作状态。
目前,主要使用两个指标来评价一个语音唤醒系统的性能:一个是误拒率(FalseReject Rate,FRR),指系统将唤醒词漏检的概率;一个是误警率(False Alarm Rate,FAR),指系统将非唤醒词误识别成唤醒词的概率,也称为误唤醒率。误唤醒率一般也可以使用另一个指标来衡量,即在一段时间内出现的误唤醒次数,如1次/12小时。理论上,误拒率和误警率是一对互相矛盾的指标:为了降低误拒率,误警率很可能上升;相反,如果为了降低误警率,误拒率也很可能上升。
一个性能良好的语音唤醒系统应该同时具备较低的误拒率和较低的误警率:特别是在智能家居等领域,过高的误警率将在一定程度上影响用户的正常交流、休闲或娱乐,招致用户的反感;而另一方面,在常见的远场、噪音等复杂场景下,过高的误拒率会大大降低智能语音设备的实际使用体验。如何能够在控制较低误警率的前提下,尽可能降低各种复杂场景下的误拒率,提高唤醒系统对说话人的语速、口音变化的鲁棒性,是一个亟待解决的问题。
发明内容
基于此,有必要针对上述控制较低误警率的前提下,如何尽可能降低各种复杂场景下误拒率,以及如何提高唤醒系统对说话人的语速、口音变化的鲁棒性的问题,提供一种语音唤醒方法及系统。
一种语音唤醒方法,包括以下步骤:
录入原始音频数据及获取语音录入设备所应用的场景对应的环境音频数据,根据环境音频数据将所述原始音频数据转化为环境语音模拟数据;
对原始语音数据及/或模拟语音数据进行分帧加窗操作,以获取所述原始语音及/或模拟语音对应的语音帧,并提取所述语音帧的声学特征信息;
将所述声学特征信息进行计算,以获取所述语音帧所至少包含的唤醒词类别及非唤醒词类别的深度神经网络分类模型;
录取现场语音数据,提取所述现场语音数据对应的声学特征信息,并将该所述现场语音数据对应的声学特征信息输入至所述深度神经网络分类模型,以得到所述现场语音数据的后验概率信息;
根据所述后验概率信息计算所述录取现场语音数据的置信度,并将所述置信度与预设定阈值比较,当所述置信度大于所述预设定阈值,唤醒语音录入设备,当所述置信度小于所述预设定阈值,不唤醒语音录入设备并进一步获取用户指令。
在其中一个优选实施方式中,在所述录入原始音频数据及获取语音录入设备所应用的场景对应的环境音频数据,根据环境音频数据将所述原始音频数据转化为环境语音模拟数据的步骤中,所述环境语音模拟数据包含对原始音频数据的噪声模拟、语速模拟、混响模拟、音调及响度模拟的其中一项或多项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州奇梦者网络科技有限公司,未经苏州奇梦者网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811081600.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能终端语音交互控制方法及装置
- 下一篇:语音交互方法及终端设备