[发明专利]一种基于角度谱特征的多通道远场的目标语音识别方法有效
| 申请号: | 202010098250.9 | 申请日: | 2020-02-18 |
| 公开(公告)号: | CN113345421B | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 张鹏远;李文洁;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;中科信利(广州)技术有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/22;G10L15/16;G10L19/02;G10L19/26;G10L25/24 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 角度 特征 通道 目标 语音 识别 方法 | ||
本发明公开了一种基于角度谱特征的多通道远场的目标语音识别方法,包括:获取包含目标人语音的M个通道的混合语音;将两个通道组成通道对,得到H个不重复的通道对。提取M个通道的混合语音的MFCC特征,并串接,得到第一特征;计算H个通道对的SRP‑PHAT,根据SRP‑PHAT生成包含目标人的位置信息的角度谱特征作为第二特征;提取出预存的目标人特征作为第三特征;根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力,从而进一步提升模型对于目标说话人语音的识别性能。
技术领域
本发明涉及智能识别领域,特别涉及一种基于角度谱特征的多通道远场的目标语音识别方法。
背景技术
人工智能的迅速发展,逐渐渗透到生活的各个方面,语音是人机交互的重要方式,促进了语音识别技术在各领域广泛运用。现在高信噪比情况下的语音识别准确率已经达到了很多实际应用的需求标准,但是鸡尾酒会问题仍然是语音识别领域的一个亟待解决的问题。它的主要难点在于,目标说话人的语音中存在人声干扰,非平稳噪声干扰,远场混响等因素的影响。
解决这一问题的常用方法是先对多说话人的语音分离之后再分别进行识别。人耳通常可以很好在嘈杂的环境中将注意力集中在感兴趣的目标语音上,在这个过程中说话人的位置信息起到了重要的作用。在此基础上我们构建了目标说话人语音识别框架,这个框架中我们将目标人的说话人特征和包含位置信息的角度谱特征作为识别模型的辅助特征,来引导模型将注意力集中到目标说话人,从而提升针对目标语音的识别性能。
发明内容
本发明的目的在于,为了从多说话人混叠或者带噪声的多通道语音中提取出感兴趣的目标说话人的语音,该方法提出一种基于角度谱的目标语音识别框架,该框架通过目标人位置信息的辅助,引导模型去增强对目标方向的语音进行识别,同时尽量排除其他方向上的声音的干扰。具体地,该方法主要是从多通道混合语音中提取出角度谱特征,然后将多说话人的混合语音的特征,目标人的说话人特征和目标人的角度谱特征一起作为输入,来训练目标说话人识别网络。
为了达到上述目的,本发明实施例记载了一种基于角度谱特征的多通道远场的目标语音识别方法,通过下列步骤实现对目标语音的识别:
获取包含目标人语音的M个通道的混合语音;将两个通道组成通道对,得到H个不重复的通道对;其中,H=M*(M-1)/2,M为大于等于2的正整数;提取M个通道的混合语音的梅尔倒谱系数MFCC特征,将M个MFCC特征串接,得到第一特征;计算H个通道对的相位变换可控响应功率SRP-PHAT,根据SRP-PHAT生成包含目标人的位置信息的角度谱特征作为第二特征;从目标人预先注册的语音中,提取出目标人特征作为第三特征;根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。
一个实例中,通过对各通道的混合语音进行分帧加窗,傅立叶变换,梅尔滤波,离散余弦变换,得到M个N维的MFCC特征;串接M个MFCC特征,生成M*N维的第一特征;其中,N为正整数。
一个实例中,根据预设的采样间隔得到L个采样点对应的SRP-PHAT值,将L个SRP-PHAT值合成为1个L维的第二特征;其中,L为正整数。
其中,第二特征中的峰值个数,对应于混合语音中的说话人数量,说话人数量为目标人数量与非目标人数量之和;其中,目标人数量大于等于1,非目标人数量大于等于0;第二特征中的每个峰值,对应于混合语音中的每个说话人的位置信号。
当第二特征中具备至少两个峰值,即混合语音中包含至少两个说话人时,采用滑窗算法计算并分离第二特征中的至少两个峰值,得到至少两个单峰值第二特征;单峰值第二特征中具有一个对应于说话人的位置信息的峰值。
一个实例中,将第一特征和第二特征拼接后输入时延神经网络的第一层;将第一个隐层的输出和第三特征进行拼接后输入之后的时延神经网络进行目标人的目标语音识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;中科信利(广州)技术有限公司,未经中国科学院声学研究所;中科信利(广州)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010098250.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电梯板材的压力结构
- 下一篇:一种电梯板材的驱动稳定结构





