[发明专利]对电影类视频进行场景片段抽取方法及其建立索引的方法有效

申请号：	200910089766.0	申请日：	2009-07-23
公开（公告）号：	CN101650958A	公开（公告）日：	2010-02-17
发明（设计）人：	王玲芳;李松斌;王劲林	申请（专利权）人：	中国科学院声学研究所
主分类号：	G11B27/031	分类号：	G11B27/031;G11B27/10;G06F17/30
代理公司：	北京法思腾知识产权代理有限公司	代理人：	杨小蓉
地址：	100190北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	电影视频进行场景片段抽取方法及其建立索引
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及视频索引与搜索技术领域，具体地说，本发明涉及一种对电影类视频进行场景片段抽取和建立索引的方法。

背景技术

廉价的大容量存储设备制造技术的进步，更高的网络数据传输速率，以及持续改进的高效视频压缩技术使数字视频得以广泛传播和使用。视频为多媒体系统用户提供了大量的信息，同时它也是很多应用系统的数据源，这些系统如数字图书馆、数字出版、数字娱乐、数字广播和远程教育等。目前，基于视频信息的网络服务正处于高速发展期。但是，与成熟的文本信息搜索相比，目前高效地获取特定的视频片段仍然是一个非常具有挑战性的问题。文本与视频(运动图像)在检索时差异很大，文本内容中的某个词很容易被识别，并且该词包含人可理解的概念(含语义信息)，因此文本内容可进行全文检索(此时文本中的词汇是检索特征量)；但图像本身的特征很难用于直接搜索，例如颜色分布特征与用户的询问信息可能毫无关联，视频由一系列的图像构成，其语义更为复杂，机器将用户的查询信息转化为对一系列视频特征的查询存在很大困难，即存在所谓的“语义鸿沟”问题。所以，与文本信息不同，直接从视频数据中很难获得检索所需的特征量，要对视频进行有效的检索必须依赖于充分的视频元数据信息。当前大部分的商业视频搜索引擎一般也通过搜索视频的元数据信息如文件名、环绕文字或者语音脚本(使用语音识别技术从视频中获得)为用户返回所需的视频。这种方法对视频的搜索可以定义为一种浅层搜索，因为它无法进行基于视频内容的检索，而且只能检索到视频文件层次，而不是深入到每个视频片段。显然，这种搜索结果用户是不能满意的，例如用户可能只想看一部电影中的某个片段，这是当前搜索引擎所无法提供的。为了使原始视频数据可以被方便地浏览和检索，必须对视频数据进行分析、建立索引和重新组织，其目标是形成原始视频数据的结构化表示。

为了将视频进行结构化表示，一个连续的视频图像序列经常被分解成多个场景和镜头单元，这些场景和镜头单元根据其依赖关系形成了原始视频序列的层次化表示。一个镜头是由同一个摄像机连续捕获的一个帧序列，它实际上是视频图像序列之间的物理边界。场景由一个或多个连续镜头组成，这些镜头拥有共同拍摄背景/环境。例如，我们经常可以看到很多连续的镜头(由多个摄像机拍摄)共享类似的视觉内容，因为它们是在同样的环境中产生的如会议室或运动场等。一个视频场景片段一般是一个具有完整语义的故事单元，它实际上是视频图像序列的语义边界。由于用户检索一般是基于语义单元的检索，为此视频图像序列一般被以场景为单位进行组织。显然，比较准确的视频场景抽取是保证检索质量的关键。本发明主要讨论电影类视频进行场景抽取和索引的方法。该类视频进行场景抽取的过程一般可以分为两个步骤：首先是根据视频图像的颜色、纹理等特征进行镜头边缘检测；然后将视觉内容近似且连续的多个镜头划分为一个组并作为一个场景。这种方法的缺陷首先在于镜头检测容易受到干扰，例如对于渐变镜头有较高的误判率，其次镜头视觉内容的表示和镜头之间相似性的衡量方法目前也不够成熟。这些原因导致场景抽取的查全率和查准率都不是太理想，目前所报道的查全率和查准率的最好结果均在 70％左右。另一方面，采用上述方法抽取场景后，为支持高效的检索，还必须为场景建立索引，例如说明场景发生的地点、主要人物和发生的事件等。这些工作耗时费力，而且由于个人主观性的影响，会导致标注结果的不客观。

发明内容

本发明的一个目的是结合剧本和字幕信息对的电影场景进行分割(即场景片段抽取)，以达到较高精度的视频场景抽取效果。本发明的另一个目的是为所抽取的场景视频片段自动匹配其在剧本中的对应文字信息作为其索引，从而避免手工标注。

为实现上述第一个发明目的，本发明提供了一种对电影类视频进行场景片段抽取的方法，该方法包括如下步骤：

1)获取电影类视频的字幕信息，所述字幕信息包括字幕的文字内容以及该字幕的出现和消失时间；

2)从所述电影类视频的剧本文本中抽取每个场景的结构化信息，所述结构化信息包括所述场景的发生地点、发生时间、场景类型、场景描述和场景对白信息；

3)对场景对白信息与字幕的文字内容进行匹配，根据所匹配的字幕的出现和消失时间，得出场景在视频中的开始和结束时间；

4)根据步骤3)最后所得出的场景在视频中的开始和结束时间，对所述电影类视频进行分割，得到各场景的视频片断。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所，未经中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910089766.0/2.html，转载请声明来源钻瓜专利网。