[发明专利]语音-身体身份相关有效
申请号: | 201110033245.0 | 申请日: | 2011-01-24 |
公开(公告)号: | CN102135882A | 公开(公告)日: | 2011-07-27 |
发明(设计)人: | M·德尼斯;T·莱瓦德;C·克莱恩;李劲宇 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G10L15/00;G10L15/06;G01S5/22 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈斌;高见 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 身体 身份 相关 | ||
技术领域
本发明涉及一种用于在多用户应用程序中将语音与用户相关联的系统和方法。
背景技术
诸如计算机游戏和多媒体应用之类的系统已经演变到系统能够利用用户移动和口头通信作为对系统的输入的地步。此类自然系统可能连向多个用户,在此情况下迫使在个体之间作出区分。现有技术允许游戏或应用通过各种机制来标识视场内的用户,这些机制包括能够感测诸如大小、面部特征、衣着颜色等用户特征的三维深度相机。还存在语音识别技术以通过包括话筒阵列在内的各种机制来标识感知用户语音。传统上,这两种技术还未曾合作地使用过。在不用涉及用户方的特意装置的情况下自动将用户语音与身体相匹配将是令人信服的。例如,可能会有单独使用成像技术或单独使用音频技术,人的身份不明确的情况发生。在低成本的消费者系统中尤其如此。除了帮助明确用户外,音频与视觉身份的此类关联可被用于支持游戏或应用内的用户体验。
发明内容
本文描述了一种用于在多用户应用程序中将语音与用户相关联的系统和方法。该系统包括能够提供所述图像相机组件的视场中的一个或多个用户的深度图像的图像相机组件。该系统还包括话筒阵列,其能够接收该话筒阵列的范围内的音频。话筒阵列还能够将语音的源定位在第一容限内。实施例还包括与图像捕捉组件和话筒阵列两者通信且能够区别视场中的不同用户达到第二容限的计算环境。在实施例中,第一和第二容限有时可能妨碍在对来自图像相机的数据和来自话筒阵列的数据进行初始采样后将语音与用户相关联。然而,计算环境还执行对来自图像相机的数据和来自话筒阵列的数据的附加采样。这些附加采样允许将语音与用户相关联或者该些附加采样降低了语音与用户相关联的似然性。
附图说明
图1A-1B示出伴随用户玩游戏的目标识别、分析和跟踪系统的示例实施例。
图2示出了可在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。
图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的示例实施例。
图3B示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的另一示例实施例。
图4描绘用于将语音与身体相关联的示例方法的高层流程图。
图5描绘用于标识视场内的一个或多个身体的流程图。
图6描绘用于标识由本系统的话筒阵列所拾取的语音的流程图。
图7描绘用于将语音与身体毫无疑义地相关联的实施例的流程图。
图8A和8B一起描绘用于经由对语音和身体位置标识的多次采样将语音与身体相关联的实施例的流程图。
具体实施方式
现在将参照图1A到8B来描述本技术的实施例,其一般涉及一种用于随时间推移跟踪图像和音频数据以基于人体在多用户游戏或多媒体设置中的语音与身体的相关性来自动地标识人体的系统。一般而言,该系统包括捕捉设备,包括用于感测视场中诸如人之类的对象的一个或多个相机,以及用于感测诸如人的语音之类的音频的话筒阵列。相机能够确定视场中的对象是否是人,并且还能确定所辨识的人的物理特征,诸如骨关节位置。相机还能够确定视场中的人们彼此之间以及与捕捉设备的相对位置。话筒阵列能够确定所听到声音是否是语音,并且可不时地区别不同的语音。话筒也可以能够确定一检出语音与其他检出语音以及与话筒的相对位置。
在图像和音频系统能够毫无疑义地确定给定语音属于视场中的给定用户身体的情况下,存储该语音-身体关联性。然而,可能发生在图像和音频采样之后系统不能建立单个毫无疑义关联性的情况。作为替代,系统标识所采样语音可能属于的一个或多个候选用户。在此实例中,本系统可采用各种因素来确定语音与身体是否高于预定阈值置信度(“TCL”)地相关联。若是,则尽管并非毫无疑义,仍可返回并存储该语音-身体关联性以供未来采样使用。未来采样将或者强化该关联性,或者显示该关联性仍有疑意,在后一情形下可移除该关联性。
最初参考图1A-2,用于实现本发明的技术的硬件包括目标识别、分析和跟踪系统10,该系统可用于识别、分析和/或跟踪诸如用户A到D等一个或多个人类目标。目标识别、分析和跟踪系统10的各实施例包括用于执行游戏或其他应用程序的计算环境12,以及用于从游戏或其他应用程序提供音频和视觉表示的视听设备16。系统10还包括捕捉设备20,包括一个或多个深度感知相机以及包括两个或更多个话筒的话筒阵列。捕捉设备20与计算环境12通信,以使得计算环境12可以部分地基于从捕捉设备20收到的信息来控制至视听设备16的输出。这些组件中的每一各都会在以下详细描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110033245.0/2.html,转载请声明来源钻瓜专利网。