[发明专利]一种目标声源的提取方法及装置有效
申请号: | 201911219825.1 | 申请日: | 2019-12-03 |
公开(公告)号: | CN110992977B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 陈孝良;钱思冲;冯大航;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 潘颖 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目标 声源 提取 方法 装置 | ||
本发明公开了一种目标声源的提取方法,包括:获取第一数量的声音采集设备采集的音频数据;确定所述音频数据中声源的第二数量;将所述第一数量与所述第二数量进行对比,依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离,得到各个声源;选取所述各个声源中存在预设激活词的声源作为目标声源。上述的提取方法中,在接收到音频数据时,首先确定音频数据的声源的第二数量,实现了声源的准确定位,之后才进行目标声源的提取,避免了现有技术中,在噪声和混响场景下或者间隔短的不同声源,定位结果有较大误差,无法做到准确定位的问题。
技术领域
本发明涉及语音提取技术领域,尤其涉及一种目标声源的提取方法及装置。
背景技术
嘈杂环境中提取感兴趣的目标声源被称为“鸡尾酒会问题”,在实际环境中,声音的传播经过反射、多径传播、叠加,到达传声器的时候与源声源有很大差异了,想从传声器提取感兴趣声音变得格外困难。
现有技术中利用声音采集设备采集声源数据,然后使用SRP和粒子滤波对声源数据进行定位和跟踪,盲语音分离根据声源方位信息对麦克风信号进行分离并进行后置滤波,得到独立声源。上述的方法中,在噪声和混响场景下或者间隔短的不同声源,定位结果有较大误差,无法做到准确定位。
发明内容
有鉴于此,本发明提供了一种目标声源的提取方法及装置,用以解决在噪声和混响场景下或者间隔短的不同声源,定位结果有较大误差,无法做到准确定位的问题。具体方案如下:
一种目标声源的提取方法,包括:
获取第一数量的声音采集设备采集的音频数据;
确定所述音频数据中声源的第二数量;
将所述第一数量与所述第二数量进行对比,依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离,得到各个声源;
选取所述各个声源中存在预设激活词的声源作为目标声源。
上述的方法,可选的,确定所述音频数据中声源的第二数量,包括:
对所述音频数据进行傅里叶变换,得到频域音频数据;
计算所述音频数据的协方差矩阵,对所述协方差矩阵进行变换;
依据盖氏圆法确定所述音频中声源的第二数量。
上述的方法,可选的,依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离,得到各个声源,包括:
若所述第一数量等于所述第二数量,采用频域独立分量分析方法或独立向量分析方法对所述音频数据进行盲源分离,得到各个声源。
上述的方法,可选的,依据对比结果选取对应的目标盲源分离方法对所述音频数据进行盲源分离,得到各个声源,包括:
若所述第一数量大于所述第二数量,采用主成分分析法将所述音频数据降将至第二数量维度,得到目标音频数据;
采用频域独立分量分析方法或独立向量分析方法对所述目标音频数据进行盲源分离,得到各个声源。
上述的方法,可选的,还包括:
对所述各个声源进行语音增强处理。
上述的方法,可选的,还包括:
在所述第一数量为1的情况下,采用非负矩阵分解方法对所述目标音频数据进行盲源分离,得到各个声源。
一种目标声源的提取装置,包括:
获取模块,用于获取第一数量的声音采集设备采集的音频数据;
确定模块,用于确定所述音频数据中声源的第二数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911219825.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仿真圣诞树树叶自动送料绕线装置
- 下一篇:一种专用汽车配件制造机械手