[发明专利]一种基于语义先验的选择性注意的多通道语音增强方法有效

专利信息
申请号: 201510574907.3 申请日: 2015-09-10
公开(公告)号: CN106531179B 公开(公告)日: 2019-08-20
发明(设计)人: 付强;王晓飞;国雁萌;颜永红 申请(专利权)人: 中国科学院声学研究所
主分类号: G10L21/02 分类号: G10L21/02
代理公司: 北京方安思达知识产权代理有限公司 11472 代理人: 王宇杨;李彪
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于语义先验的选择性注意的多通道语音增强方法,所述方法包括:多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号并进行预处理;利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词;对未经切割的包含激活词段的信号进行处理得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制其它方向的噪声以及远讲场景下的房间混响,获取得到目标方向的增强语音。本方明的方法可用于智能家电、智能家居、车载和可穿戴设备等需要远讲式语音输入和交互的场合,特别适用于复杂的声学噪声和干扰环境场合。
搜索关键词: 一种 基于 语义 先验 选择性 注意 通道 语音 增强 方法
【主权项】:
1.一种基于语义先验的选择性注意的多通道语音增强方法,所述方法包括:多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号并进行预处理;利用激活词语音识别模型检测预处理后的语音信号中存在的特定激活词;对未经切割的包含激活词段的信号进行处理得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制其它方向的噪声以及远讲场景下的房间混响,获取得到目标方向的增强语音;所述方法具体包括:步骤1)多传声器阵列拾取来自于混响环境中的任意方向的语音信号,采集多路语音信号;步骤2)对步骤1)采集的多路语音信号进行预处理;步骤3)利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词;如果检测结果是肯定的,保留未经切割的包含激活词段的信号,进入步骤4);否则,转入步骤1);步骤4)对未经切割的包含激活词段的信号进行语音活动性检测得到完整的激活词段;采用基于混响鲁棒的多通道相位差声源定位方法对激活词段进行分析,得到目标声源的声波到达方向;对该方向的语音进行增强,并抑制残余方向性噪声和来自于环境的扩散噪声以及远讲场景下的房间混响,获取到目标方向的增强语音;所述步骤3)中的利用激活词语音识别模型检测预处理后的语音信号中是否存在特定的激活词的具体过程为:根据先验的大量激活词数据或特定说话人的数据,训练得到说话人相关或者说话人无关的激活词语音识别模型;采用识别解码策略对激活词内容进行检测并计算置信度,从而完成分类判别,将语音识别和关键词检索算法相结合,实现对激活词的检测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510574907.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top