[发明专利]语音提取方法、装置、设备和存储介质在审
| 申请号: | 202010158648.7 | 申请日: | 2020-03-09 |
| 公开(公告)号: | CN113450769A | 公开(公告)日: | 2021-09-28 |
| 发明(设计)人: | 童仁杰 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/24;G10L21/0216 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 徐静;刘芳 |
| 地址: | 310051 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 提取 方法 装置 设备 存储 介质 | ||
1.一种语音提取方法,其特征在于,包括:
获取目标声源处的图像;
根据所述目标声源在所述图像中的像素位置,确定所述目标声源的波达方向DOA;
根据所述DOA,以及预设的N个波束的输出信号,提取目标声源的语音输出信号;所述N个波束是以麦克风阵列为基准而预设的具有不同指向的各个波束,N≥2。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标声源在所述图像中的像素位置,确定所述目标声源的波达方向DOA之前,还包括:
确定所述图像中相邻人脸之间的像素距离;
若所述像素距离小于预设阈值,则根据所述目标声源在所述图像中的像素位置,确定目标声源的波达方向DOA的操作。
3.根据权利要求2所述的方法,其特征在于,所述确定所述图像中相邻人脸之间的像素距离,包括:
确定所述图像中相邻人脸的中心点的像素位置;
根据所述图像中相邻人脸的中心点的像素位置,确定所述相邻人脸之间的像素距离。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述目标声源在所述图像中的像素位置,确定所述目标声源的波达方向DOA之前,还包括:
根据所述图像的相邻人脸中每个人脸的中心点的像素位置,确定所述目标声源在所述图像中的像素位置;所述相邻人脸之间的距离小于预设阈值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述图像的相邻人脸中每个人脸的中心点的像素位置,确定所述目标声源在所述图像中的像素位置,包括:
将所述图像的相邻人脸的两个中心点的中心位置,确定为所述目标声源在所述图像中的像素位置。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述目标声源在所述图像中的像素位置,确定所述目标声源的DOA,包括:
根据所述目标声源在所述图像中的像素位置,图像采集组件中镜头与图像传感器的距离,所述镜头的中心点在所述图像中的像素位置,所述图像传感器中相邻的感光元件之间的距离,确定所述目标声源的DOA。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述DOA,以及预设的N个波束的输出信号,提取目标声源的语音输出信号,包括:
根据所述DOA,确定所述N个波束对应的权重;
根据所述N个波束对应的权重以及所述麦克风阵列接收的语音信号,确定所述N个波束的输出信号;
根据所述N个波束的输出信号,获取目标声源的语音输出信号。
8.根据权利要求7所述的方法,其特征在于,所述根据所述N个波束的输出信号,获取目标声源的语音输出信号,包括:
根据所述目标声源对应的目标波束的输出信号,以及所述N个波束的输出信号,确定所述目标波束存在所述目标声源的语音的概率;所述目标波束为所述N个波束的一个波束;
根据所述目标波束存在语音的第一后处理增益、所述目标波束不存在语音的第二后处理增益以及所述概率,确定第三后处理增益;
根据所述第三后处理增益确定所述目标声源的语音输出信号。
9.根据权利要求7所述的方法,其特征在于,所述DOA包括所述目标声源的俯仰角和方位角,所述根据所述DOA,确定所述N个波束对应的权重,包括:
根据所述DOA包括的俯仰角,以及所述N个波束各自对应的空间区域的中心方位角,确定N个波束对应的导向矢量;
根据对角加载后的协方差矩阵,以及所述N个波束对应的导向矢量,确定所述N个波束对应的权重;所述协方差矩阵表示频点为f的散射噪声基于所述麦克风阵列的协方差矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010158648.7/1.html,转载请声明来源钻瓜专利网。





