[发明专利]基于行为识别的语音定位方法以及装置在审
| 申请号: | 201810557504.1 | 申请日: | 2018-06-01 |
| 公开(公告)号: | CN109031201A | 公开(公告)日: | 2018-12-18 |
| 发明(设计)人: | 卢启伟;杨宁;刘胜强 | 申请(专利权)人: | 深圳市鹰硕技术有限公司 |
| 主分类号: | G01S5/18 | 分类号: | G01S5/18;G10L25/51;G06T7/246;G06T7/73 |
| 代理公司: | 深圳余梅专利代理事务所(特殊普通合伙) 44519 | 代理人: | 井杰;高真辉 |
| 地址: | 518100 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用户行为特征 视频信号 行为特征 视频采集设备 时间信息 行为识别 语音信号 匹配 语音 发言 分析视频信号 发言人位置 标准行为 存储介质 电子设备 匹配结果 时间段 预设 对准 采集 分析 | ||
本公开是关于一种基于行为识别的语音定位方法、装置、电子设备以及存储介质。其中,该方法包括:在接收到特定语音信号时,获取接收特定语音信号的时间信息,以及视频采集设备在时间信息对应时间段采集的视频信号;分析视频信号中的N个用户行为特征,并将N个用户行为特征与预设的标准行为特征进行匹配;若根据匹配结果确定N个用户行为特征中包含发言行为特征,将视频信号中与所述发言行为特征对应的用户作为发言人;分析并确定视频信号中所述发言人所在场地中的位置,控制音/视频采集设备对准所述发言人所在场地中的发言位置。本公开可以通过发言人行为特征的识别并匹配实现对发言人位置的定位。
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种基于行为识别的语音定位方法、装置、电子设备以及计算机可读存储介质。
背景技术
在会议或者教学等场合中,对发言人的快速定位,可以使对应的音或/和视频采集装置快速、自动的定位到所述发言人,提高音或/和视频采集效果。
然而,现有基于发言人面部特征识别的方式对发言人及其它成员的要求较高,需要有较大差异的面部特征,同时,对面部特征的视频采集装置的硬件条件要求也更高;基于多麦克风定位或者基于发言人发言系统定位的方式又需要增加大量的附属装置,增加了配置和运行成本。
在现有技术中,申请号为CN 201611131001.5公开了一种语音定位方法、装置和系统,其中方法包括:通过多个麦克风接收语音信息,并判断语音信息中是否含有第一关键字语音;如果含有所述第一关键字语音,则记录各所述麦克风接收到第一关键字语音的定位信息;根据各所述麦克风的位置坐标,以及所述定位信息,计算发出所述第一关键字语音的声源位置。本发明的语音定位方法、装置和系统,可以实现在多人会议场合或者其它语音识别场合,发言者只需要说出关键字语音,就可以马上定位发言者的方向,以实现定向拾取声音,有利于提高拾取声音的质量。
申请号为CN201610304047.6公开了一种结合图像的语音定位和增强系统及方法,所述定位系统包括图像识别跟踪子系统和语音定位和增强子系统。图像识别跟踪子系统包括:摄像头,用于采集图像序列;图像识别跟踪单元,用于识别人员并缓存脸部三维坐标;通过识别人员执行的第一预定义操作唤醒语音定位和增强子系统,并发送脸部三维坐标;跟踪识别所述人员,并发送更新的脸部三维坐标。语音定位和增强子系统包括:麦克风阵列,用于采集语音信息;语音定位和增强单元,用于根据空间滤波算法和接收的脸部三维坐标控制麦克风阵列定向聚焦采集所述人员的语音信息,并根据所采集的语音信息对所述人员进行定位。
申请号为CN201510066532.X公开了一种分部处理式阵列式语音定位和增强方法,包括广义旁瓣抵消器的基本结构、阻塞矩阵的设计、分量滤波器的设计和外置维纳滤波部分。该方法借鉴分量结构,外加后置维纳滤波器,利用部分自适应技术,保证了算法的去噪性能,有效地抑制非相干噪声和相干噪声,加快了算法的收敛速度,降低了运算复杂度,相对于传统的广义旁瓣相消器的麦克风阵列语音增强系统,采用改进的语音增强系统具有更高的输出信噪比。仿真实验测试结构表明,相对于基于全带广义旁瓣抵消器的麦克风阵列语音增强系统,本发明的方法具有更高的输出信噪比。
以上方法均基于发言人面部特征识别的方式或基于多麦克风定位的发言人位置定位的方法,都不能解决不依赖过多的附属设备,简单可靠的实现发言人位置定位的问题。
因此,需要提供一种或多种至少能够解决上述问题的技术方案。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种基于行为识别的语音定位方法、装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供一种基于行为识别的语音定位方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市鹰硕技术有限公司,未经深圳市鹰硕技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810557504.1/2.html,转载请声明来源钻瓜专利网。





