[发明专利]语音命令识别方法及系统无效
申请号: | 201210570074.X | 申请日: | 2012-12-25 |
公开(公告)号: | CN103050116A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 王海坤;何婷婷;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20 |
代理公司: | 北京汇智胜知识产权代理事务所(普通合伙) 11346 | 代理人: | 朱登河 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 命令 识别 方法 系统 | ||
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音命令识别方法及系统。
背景技术
实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。作为一种简单方便而又高效的输入方式,语音识别改变了传统的基于复杂编码或拼音输入的键盘模式,为自然人性的人机交互提供了便利条件。在语音识别技术的支持下,用户只要对着设备自然说话,经过系统识别后就会形成文字或命令指示,大大提高了人机交互效率。
传统的语音识别系统接收用户语音信号输入后提取相应声学特征,在系统预置的解码网络(通常由声学模型、语言模型及字典等构成)内搜索最优路径,获取识别结果。
传统的语音识别系统在识别环境和系统训练环境一致时,特别是在安静的应用环境下能提供较高的识别准确率,满足大部分的应用需求。然而在实际应用中,用户可能需要在存在背景音的情况下输入语音命令,如在智能语音操控玩具讲故事的时候用户需要打断故事讲述过程进行其他的语音指令操作,又如用户开车时在车内播放音乐的同时需要打断音乐播放进行其他诸如导航等功能操作,再如语音控制的智能电视,用户可能在电视播放状态下对其进行语音控制,进行换台、音量调控等操作。在这些应用环境中,由于存在其他外设声源,麦克风采集到的语音信号不仅包括用户的语音指令,而且还不可避免地掺杂了其他背景声音,导致该信号的信噪比往往很低,识别性能将大大降低,甚至可能无法使用,限制了语音识别技术的应用范围。
发明内容
本发明提供一种语音命令识别方法及系统,以解决在存在外设放声源的环境下识别性能降低的问题,满足不同背景环境下语音识别的应用需求。
为此,本发明提供如下技术方案:
一种语音命令识别方法,包括:
接收当前环境中的音频信号并单独获取所述当前环境中的外放声源信号;
对所述外放声源信号和所述音频信号进行同步化处理;
根据同步化处理后的外放声源信号确定所述音频信号的组成信号;
如果所述音频信号包含语音信号和所述外放声源信号,则根据所述同步化处理后的外放声源信号及当前环境的空间响应函数从所述音频信号中提取有效的语音信号;
对所述语音信号进行解码,获取语音命令。
优选地,所述方法还包括:
如果所述音频信号只包含语音信号,则对所述语音信号进行解码,获取语音命令。
优选地,所述对所述外放声源信号和所述音频信号进行同步化处理包括:
对所述外放声源信号和所述音频信号进行采样率同步。
优选地,所述对所述外放声源信号和所述音频信号进行采样率同步包括:
将所述外放声源信号转换为无压缩的线性数字信号;
通过傅立叶变换获取所述音频信号的频谱信息;
依次通过傅立叶变换获取所述外放声源信号在不同采样率下的频谱信息;
计算所述音频信号的频谱信息与所述外放声源信号在不同采样率下的频谱信息的相关性;
选择具有最大相关性的采样率对所述线性数字信号进行重采样。
优选地,所述对所述外放声源信号和所述音频信号进行同步化处理还包括:
对所述外放声源信号和所述音频信号进行时间同步。
优选地,所述根据同步化处理后的外放声源信号确定所述音频信号的组成信号包括:
计算同步化处理后的外放声源信号的平均能量;
如果所述平均能量小于预设的能量阈值,则确定所述音频信号只包含语音信号;
如果所述平均能量大于或等于预设的能量阈值,则计算同步化处理后的外放声源信号和所述音频信号的频谱相关系数;
如果所述频谱相关系数小于预设的相关系数阈值,则确定所述音频信号为包含语音信号和所述外放声源信号的混合信号;否则,确定所述音频信号只包含所述外放声源信号。
优选地,所述方法还包括:
在确定所述音频信号只包含所述外放声源信号后,根据所述音频信号及所述同步化后的外放声源信号更新所述当前环境的空间响应函数。
优选地,所述对所述语音信号进行解码,获取语音命令包括:
利用根据声学模型构建的解码识别网络对所述语音信号进行解码,获取语音命令,所述声学模型是利用预先录制的当前环境中的语音信号和静音信号训练得到的。
一种语音命令识别系统,包括:
接收单元,用于接收当前环境中的音频信号;
获取单元,用于单独获取所述当前环境中的外放声源信号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210570074.X/2.html,转载请声明来源钻瓜专利网。