[发明专利]识别语音的方法和装置有效
申请号: | 201810796701.9 | 申请日: | 2018-07-19 |
公开(公告)号: | CN110738990B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 朱长宝;牛建伟;刘鼎 | 申请(专利权)人: | 南京地平线机器人技术有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20 |
代理公司: | 北京市正见永申律师事务所 11497 | 代理人: | 黄小临;冯玉清 |
地址: | 210046 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 语音 方法 装置 | ||
公开了一种识别语音的方法和装置,该方法包括:将输入的声音信号分离为至少两个分离信号;生成在当前帧时的降噪信号;对在当前帧时的每个关注信号执行初步识别;以及根据在当前帧时的每个关注信号在当前帧时的识别得分执行识别判决。本公开的方法和装置将阵列信号处理和语音识别深度地融合在一起并采用多路识别,使得即使在信噪比很低的情况下也能够获得很好的识别率。
技术领域
本公开总体上涉及语音识别的技术领域,并且具体地涉及一种识别语音的方法和装置。
背景技术
在嘈杂的环境中,例如在存在电视干扰的情况下,远场语音识别的识别率将大大降低,进而影响远场语音交互。
可以通过麦克风阵列进行空间滤波,输出单路语音并送入语音识别器进行识别。然而,空间滤波通常依赖于声源定位,而在信噪比较低的情况下,声源定位本身的准确度将显著地降低。
发明内容
一方面,本公开提供了一种识别语音的方法,该方法包括:将输入的声音信号分离为至少两个分离信号;基于在前述声音信号的当前帧时从前述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号,生成在当前帧时的降噪信号;对在当前帧时的多个关注信号中的每个关注信号执行初步识别,在当前帧时的多个关注信号包括前述至少两个分离信号和在当前帧时的降噪信号,并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分;以及根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分执行识别判决。
另一方面,本公开提供了一种计算机可读取的非易失性存储介质,在其上存储有程序指令,前述程序指令可以在被执行时执行上述方法。
另一方面,本公开提供了一种识别语音的装置,该装置可以包括一个或多个处理器,前述一个或多个处理器被配置为在启动时至少执行上述方法。
另一方面,本公开提供了一种识别语音的装置,该装置可以包括:分离器,被配置为将输入的声音信号分离为至少两个分离信号;信号生成器,被配置为基于在前述声音信号的当前帧时从前述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号来生成在当前帧时的降噪信号;识别器,被配置为对在当前帧时的多个关注信号中的每个关注信号执行初步识别,在当前帧时的多个关注信号包括前述至少两个分离信号和在当前帧时的降噪信号,并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分;以及判决器,被配置为根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分来执行识别判决。
根据本公开的实施例的识别语音的方法和装置将阵列信号处理和语音识别深度地融合在一起并采用多路识别,使得即使在信噪比很低的情况下也能够获得很好的识别率。
附图说明
图1示出根据本公开的实施例的识别语音的方法的示例。
图2示出根据本公开的实施例的声音信号分离的示例。
图3示出根据本公开的实施例的识别语音的方法的另一个示例。
图4示出根据本公开的实施例的识别语音的方法的另一个示例。
图5示出根据本公开的实施例的识别语音的装置的示例。
具体实施方式
下面结合附图来描述根据本公开的实施例的用于识别语音的方法和装置的示例。
如图1所示,根据本公开的实施例的示例方法100可以包括步骤S110(分离声音信号)、S120(生成降噪信号)、S130(初步识别)和S140(识别判决)。
在步骤S110中,可以将输入的声音信号分离为至少两个分离信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京地平线机器人技术有限公司,未经南京地平线机器人技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810796701.9/2.html,转载请声明来源钻瓜专利网。