[发明专利]在电视会议和其它应用中用于自适应位置确定的方法和设备无效
申请号: | 01801876.9 | 申请日: | 2001-04-17 |
公开(公告)号: | CN1383682A | 公开(公告)日: | 2002-12-04 |
发明(设计)人: | S·古塔 | 申请(专利权)人: | 皇家菲利浦电子有限公司 |
主分类号: | H04N7/14 | 分类号: | H04N7/14;H04N7/15;H04N7/18 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 王岳,傅康 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电视会议 其它 应用 用于 自适应 位置 确定 方法 设备 | ||
发明领域
本发明总的涉及视频信号处理的领域,更具体地,涉及通过使用视频摄像机以使得可以得到想要的视频输出而识别感兴趣的个人或其它目标的位置的技术。
发明背景
跟踪图象中感兴趣的个人或另一个目标,是基于视频摄像机的系统的一个重要的方面,诸如电视会议系统和视频监视系统。例如,在电视会议系统中,常常希望把特定的会议参加者的头部和肩部摄进屏幕,放置在最终的输出信号中。
电视会议常常利用镜头左右扫描-俯仰扫描-变焦(PTZ)摄像机来跟踪感兴趣的物体。PTZ摄像机允许系统定位和光学聚焦摄像机来执行跟踪任务,这种方法的一个问题是,在某些情形下,跟踪机构不够鲁棒,不适用于感兴趣目标的位置的突然改变。这可能是由于摄像机常常调焦到太远而不能对突然的改变作出反应。例如,在电视会议系统中常常会有参加者在他们的座位内移动,例如,前后俯仰,或左右摆动。如果PTZ摄像机对特定的参加者推进焦距太远,则参加者的小的运动都会使得PTZ摄像机会失去对该参加者的跟踪,而必须拉出焦距,以及进行重新跟踪,这将使得最终输出的视频信号的观看者迷惑。
开始,用于电视会议系统中的PTZ摄像机的控制系统要求操作者进行人工调整摄像机,保持聚焦到当前的讲话人。然而逐步地,电视会议系统的用户要求免提操作,其中PTZ摄像机的控制必须全自动。提出或建议了多种技术,用于根据音频和视频信息自动检测个人。音频定位器处理从话筒阵列得到的音频信息,以及确定讲话者的位置。具体地,当已知相对话筒位置时,声音源的位置可以通过使用熟知的三角方法从来自单个源的声波的估计的传播时间差而被确定。
同样地,视频定位器定位在视频图象中感兴趣的一个或多个目标。在电视会议系统方面,感兴趣的物体是讲话者的头部和肩部。视频定位器通过使用图象中的讲话者的头部尺寸和位置的信息来组织安排讲话者的头部和肩部。多种熟知的技术可供使用来检测图象中个人的位置,包括皮肤色调检测,面部检测和背景扣除。对于用于检测图象中个人的位置的这些技术的更详细的讨论,可参阅“FaceRecognition:From Theory to Applications(面部识别:从理论到应用)”(NATO ASI Series,Springer Verlag,New York,H.Wechsler等,editors,1998),该文章引用在此,以供参考。
所以,需要有改进的技术,可以检测图象处理系统(诸如,电视会议系统)中的个人。进一步需要用于以减小的计算负荷检测在这样的图象处理系统中的个人的方法和设备。
发明概要
总的来讲,本发明公开了在视频处理系统中用于通过使用集结技术跟踪感兴趣的物体的方法和设备。具体地,本发明把一个区域划分成近似的区域,被称为一个集群,每个集群与一个感兴趣的物体相联系。每个集群与它的平均的左右扫描、俯仰扫描和变焦数值有关。在说明的电视会议实施方案中,音频或视频信息,或二者,被用来识别与讲话者有关的集群。如果可能的话,一旦讲话者的集群被识别,摄像机就聚焦在该集群上,使用记录的左右扫描、俯仰扫描和变焦数值。
在一个实施方案中,事件累积器初始地累积音频事件(以及任选的视频事件)一段特定的时间,诸如大约3到5秒,允许几个讲话者讲话。累积的音频事件然后被集群生成器使用来生成与各种感兴趣的物体有关的集群。说明的集群生成器采用两级,即,未监管的集结级,诸如相减的集结技术,以及监管的集结级,诸如迭代的基于最佳化的集结技术(即,K平均值集结)。一旦形成初始的集群,它们就被编号放置在位置历史数据库中,每个集群的左右扫描和俯仰扫描数值,以及变焦因子,如果可提供的话,等于相应的集群平均左右扫描、俯仰扫描和变焦数值。
在集群初始化以后,说明的事件累积器按周期间隔,诸如每2秒,收集事件。在每个时间间隔中出现的左右扫描和俯仰扫描数值(和变焦数值,如果可提供的话)的平均值然后被用来根据经验设置的门限值通过同一性估值器计算在数据库中各种集群之间的距离(例如,欧拉距离(Euclidean))。如果该距离大于确定的门限值,则形成相应于新的讲话者的新的集群,以及被编号放置在数据库中。否则,摄像机被聚焦在被识别的集群上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家菲利浦电子有限公司,未经皇家菲利浦电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01801876.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:锅炉烟尘净化再利用装置
- 下一篇:光信息记录介质