[发明专利]多模式语音定位在审
| 申请号: | 201980030506.8 | 申请日: | 2019-04-30 |
| 公开(公告)号: | CN112088315A | 公开(公告)日: | 2020-12-15 |
| 发明(设计)人: | E·克鲁普卡;肖雄 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G01S3/801 | 分类号: | G01S3/801;G01S5/18;G10L17/10;G10L17/00;G06K9/00;H04N7/15;H04N5/232;G06T7/70;G06K9/62 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 李光颖 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模式 语音 定位 | ||
1.一种由计算系统执行的方法,所述方法包括:
针对监视物理环境的一个或多个相机的相机阵列中的每个相机:
接收由所述相机捕获的图像数据,以及
基于所述图像数据来确定由所述相机捕获的每个人类面部的定位,每个人类面部的所述定位包括所述人类面部相对于参考坐标系的位置和取向;
针对监视所述物理环境的两个或更多个麦克风的麦克风阵列中的每个麦克风:
接收由所述麦克风捕获的音频数据,以及
变换由所述麦克风捕获的所述音频数据以获得在多个频率间隔中离散化的、所述音频数据的频域表示;
向在先训练的音频源定位分类器提供输入数据,所述输入数据包括:
由所述麦克风阵列中的每个麦克风捕获的所述音频数据的所述频域表示,以及
由所述相机阵列中的每个相机捕获的每个人类面部的所述定位,其中,每个人类面部的所述定位表示候选音频源;以及
基于所述输入数据从所述音频源定位分类器接收来自一个或多个候选音频源中的、被估计为所述音频数据所源自的所述人类面部的识别出的音频源的指示。
2.根据权利要求1所述的方法,其中,所述识别出的音频源是由所述音频源定位分类器基于针对所述频域表示的所述多个频率间隔中的每个频率间隔识别出的估计的置信度的组合来识别的。
3.根据权利要求1所述的方法,还包括:
将所述识别出的音频源归因于所述音频数据所源自的身份。
4.根据权利要求3所述的方法,还包括:
针对每个人类面部,通过使用在先训练的面部识别分类器基于所述图像数据来确定所述人类面部的身份;并且
其中,将所述识别出的音频源归因于所述身份包括:将指示所述身份的数据标签与所述音频数据相关联。
5.根据权利要求3所述的方法,还包括:
通过使用在先训练的语音识别分类器基于所述音频数据来确定所述识别出的音频源的身份;并且
其中,将所述识别出的音频源归因于所述身份包括:将指示所述身份的数据标签与所述音频数据相关联。
6.根据权利要求3所述的方法,其中,将所述识别出的音频源归因于所述身份包括:将指示所述身份的数据标签存储为所述音频数据的元数据。
7.根据权利要求6所述的方法,还包括:
存储另一数据标签,所述另一数据标签指示被估计为所述音频数据所源自的所述人类面部的所述识别出的音频源的所述定位的所述位置和/或所述取向。
8.根据权利要求1所述的方法,其中,所述音频数据表示由所述麦克风阵列中的每个麦克风捕获的音频数据流的时间间隔;并且
其中,所述识别出的音频源的所述指示是由所述音频源定位分类器针对所述时间间隔来估计的。
9.根据权利要求1所述的方法,还包括:
生成波束形成器,所述波束形成器被配置为通过将被估计为所述音频数据所源自的所述人类面部的所述识别出的音频源的所述位置和/或所述取向定为目标,从所述音频数据中去除噪声和干扰。
10.根据权利要求1所述的方法,其中,每个人类面部相对于所述参考坐标系的所述定位是以六个自由度来确定的,所述六个自由度包括三个自由度的人类面部或头部的所述位置以及三个自由度的人类面部或头部的所述取向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980030506.8/1.html,转载请声明来源钻瓜专利网。





