[发明专利]对电影类视频进行场景片段抽取方法及其建立索引的方法有效

专利信息
申请号: 200910089766.0 申请日: 2009-07-23
公开(公告)号: CN101650958A 公开(公告)日: 2010-02-17
发明(设计)人: 王玲芳;李松斌;王劲林 申请(专利权)人: 中国科学院声学研究所
主分类号: G11B27/031 分类号: G11B27/031;G11B27/10;G06F17/30
代理公司: 北京法思腾知识产权代理有限公司 代理人: 杨小蓉
地址: 100190北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 电影 视频 进行 场景 片段 抽取 方法 及其 建立 索引
【说明书】:

技术领域

发明涉及视频索引与搜索技术领域,具体地说,本发明涉及一种对电影类视 频进行场景片段抽取和建立索引的方法。

背景技术

廉价的大容量存储设备制造技术的进步,更高的网络数据传输速率,以及持续 改进的高效视频压缩技术使数字视频得以广泛传播和使用。视频为多媒体系统用户 提供了大量的信息,同时它也是很多应用系统的数据源,这些系统如数字图书馆、 数字出版、数字娱乐、数字广播和远程教育等。目前,基于视频信息的网络服务正 处于高速发展期。但是,与成熟的文本信息搜索相比,目前高效地获取特定的视频 片段仍然是一个非常具有挑战性的问题。文本与视频(运动图像)在检索时差异很 大,文本内容中的某个词很容易被识别,并且该词包含人可理解的概念(含语义信 息),因此文本内容可进行全文检索(此时文本中的词汇是检索特征量);但图像本 身的特征很难用于直接搜索,例如颜色分布特征与用户的询问信息可能毫无关联, 视频由一系列的图像构成,其语义更为复杂,机器将用户的查询信息转化为对一系 列视频特征的查询存在很大困难,即存在所谓的“语义鸿沟”问题。所以,与文本信 息不同,直接从视频数据中很难获得检索所需的特征量,要对视频进行有效的检索 必须依赖于充分的视频元数据信息。当前大部分的商业视频搜索引擎一般也通过搜 索视频的元数据信息如文件名、环绕文字或者语音脚本(使用语音识别技术从视频 中获得)为用户返回所需的视频。这种方法对视频的搜索可以定义为一种浅层搜索, 因为它无法进行基于视频内容的检索,而且只能检索到视频文件层次,而不是深入 到每个视频片段。显然,这种搜索结果用户是不能满意的,例如用户可能只想看一 部电影中的某个片段,这是当前搜索引擎所无法提供的。为了使原始视频数据可以 被方便地浏览和检索,必须对视频数据进行分析、建立索引和重新组织,其目标是 形成原始视频数据的结构化表示。

为了将视频进行结构化表示,一个连续的视频图像序列经常被分解成多个场景 和镜头单元,这些场景和镜头单元根据其依赖关系形成了原始视频序列的层次化表 示。一个镜头是由同一个摄像机连续捕获的一个帧序列,它实际上是视频图像序列 之间的物理边界。场景由一个或多个连续镜头组成,这些镜头拥有共同拍摄背景/环 境。例如,我们经常可以看到很多连续的镜头(由多个摄像机拍摄)共享类似的视 觉内容,因为它们是在同样的环境中产生的如会议室或运动场等。一个视频场景片 段一般是一个具有完整语义的故事单元,它实际上是视频图像序列的语义边界。由 于用户检索一般是基于语义单元的检索,为此视频图像序列一般被以场景为单位进 行组织。显然,比较准确的视频场景抽取是保证检索质量的关键。本发明主要讨论 电影类视频进行场景抽取和索引的方法。该类视频进行场景抽取的过程一般可以分 为两个步骤:首先是根据视频图像的颜色、纹理等特征进行镜头边缘检测;然后将 视觉内容近似且连续的多个镜头划分为一个组并作为一个场景。这种方法的缺陷首 先在于镜头检测容易受到干扰,例如对于渐变镜头有较高的误判率,其次镜头视觉 内容的表示和镜头之间相似性的衡量方法目前也不够成熟。这些原因导致场景抽取 的查全率和查准率都不是太理想,目前所报道的查全率和查准率的最好结果均在 70%左右。另一方面,采用上述方法抽取场景后,为支持高效的检索,还必须为场景 建立索引,例如说明场景发生的地点、主要人物和发生的事件等。这些工作耗时费 力,而且由于个人主观性的影响,会导致标注结果的不客观。

发明内容

本发明的一个目的是结合剧本和字幕信息对的电影场景进行分割(即场景片段 抽取),以达到较高精度的视频场景抽取效果。本发明的另一个目的是为所抽取的场 景视频片段自动匹配其在剧本中的对应文字信息作为其索引,从而避免手工标注。

为实现上述第一个发明目的,本发明提供了一种对电影类视频进行场景片段抽 取的方法,该方法包括如下步骤:

1)获取电影类视频的字幕信息,所述字幕信息包括字幕的文字内容以及该字幕 的出现和消失时间;

2)从所述电影类视频的剧本文本中抽取每个场景的结构化信息,所述结构化信 息包括所述场景的发生地点、发生时间、场景类型、场景描述和场景对白信息;

3)对场景对白信息与字幕的文字内容进行匹配,根据所匹配的字幕的出现和消 失时间,得出场景在视频中的开始和结束时间;

4)根据步骤3)最后所得出的场景在视频中的开始和结束时间,对所述电影类 视频进行分割,得到各场景的视频片断。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910089766.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top