[发明专利]基于组示多示例学习模型的视频特定包含语义检测方法有效

专利信息
申请号: 201110087415.3 申请日: 2011-04-08
公开(公告)号: CN102156686A 公开(公告)日: 2011-08-17
发明(设计)人: 蒋兴浩;孙锬锋;沈楚雄;吴斌;张善丰;储曦庆;樊静文 申请(专利权)人: 上海交通大学
主分类号: G06F15/18 分类号: G06F15/18;G06K9/62;H04N5/262
代理公司: 上海交达专利事务所 31201 代理人: 王锡麟;王桂忠
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 组示多 示例 学习 模型 视频 特定 包含 语义 检测 方法
【说明书】:

技术领域

本发明涉及的是一种计算机视频处理技术领域的方法,具体是一种基于MGIL(Multiple Grouped Instance Learning组示多示例学习)模型的视频特定包含语义检测方法。

背景技术

在当今网络盛行的大环境下,网络视频已经成为了众多网络用户生活中必不可少的部分。在网络上,土豆、优酷、Youtube等视频网站为用户提供了各种五彩斑斓的视频节目;电影电视已经成为了全世界人们最不可或缺的休闲方式,已经形成的良好的经济循环。但是,在实际操作中,有些视频不适合在网站发布。这些视频以及电视节目对于青少年的发展可能会产生不利的影响。同时,由于有些视频是受版权保护的,这些视频需要特殊处理,以防止网站的版权侵犯。基于文字的内容筛选以及相似性判断已经比较成熟,但不借助于文字描述,直接根据视频内容本身判断该内容是否与给定的视频组有相似的内容还尚且没有高效而又准确的方法进行判断。

机器学习是人工智能的一个领域,主要是开发一些让计算机自己“学习”的技术。通过学习,可以部分程度上代替人类来做出判断。而从例子中学习(Learning From Examples)被很多专家认为是最有潜力的一种机器学习方法。

多示例学习是在包的粒度对样本进行标记,而每个包中包含若干个示例,示例并无标记。若某个包被标记为正包数据,则该包中至少有一个正示例;反之,若某个包被标记为负包,则该包中的所有示例为负示例。多示例学习的目的就是通过对这些标注的包学习,尽可能准确地对新的包做出判断。由于多示例学习具有独特的性质和广泛的应用前景,因此在国际机器学习和人工智能领域引起了极大的反响,被认为是很有潜力的学习框架。

LR-MD-EMDD(Labeled with Ranking-Multiple Distance-Expectation Maximization-Diversity Density基于排名的多距离期望最大化多样性密度算法)是一个多示例学习算法,输入为正包数据于反包数据的多个种类的描述子,以及各个正包数据的权重。输出为每个描述子的概念点以及该概念点在每个维度上所占的比重(EMDD),以及每个描述子在整个描述子群中所占的比例。该算法接受描述同一段视频的不同种类描述子,输出为该种类描述子的概念点(Concept Point)以及该描述子在整体描述子中所占的比重。不同于标准的EMDD算法,该算法使用数字量化的正包数据学习,而不是单纯的使用正负来表示是否含有该特征。

经对现有文献检索发现,中国专利申请号03148305.4,名称为“一种基于内容的视频片段检索方法”使用了相似片段的检测,通过最大匹配的Hungarian算法,完成对相似片段的匹配。该方法是一种视频的相似性判断方法,并且包含了检索功能,但是,该方法对于视频的声音部分没有经过考虑,同时,该方法由于用来检测以及检索视频,没有提供一种有效的方法为视频自动分类。

中国专利申请号200610140834.8,名称为“视频内容分析系统”该方法接受了提取出镜头信息、镜头关键帧信息、场景信息、场景关键帧信息、关键帧图像信息以及人脸信息。该方法对于视频这一种格式没有进行进一步优化,而将主要精力放在了存储格式上。同时该方法使用了关键帧的处理方法,这样有可能会导致有效信息的丢失。

发明内容

本发明针对现有技术存在的上述不足,提供一种基于组示多示例学习模型的视频特定包含语义检测方法,使用多示例学习的方法,将多示例学习的算法EMDD为视频这种复杂的数据结构进行优化。通过对源视频的处理和学习,使得对于每一个输入的目标视频,都可以自动得到该视频与源视频的相似性数据。该发明可以自动的生成相似性数据报告,据此告诉使用者输入的源视频组和目标视频在内容上有多相似。

本发明是通过以下技术方案实现的,本发明通过接受一组源视频以及一个目标视频,通过对这些视频进行分割,截取描述子,学习,以及学习结果与目标视频描述子进行比对,得到目标视频与原视频组在内容上的相似度。该方法通过对使用了LR-MD-EMDD算法,该算法接受描述同一事物的多个描述子,这些描述子从不同方面描述了该事物的特征。该算法能够在不显著增加EMDD运算时间的情况下,综合不同描述子所给出的数据,能够给出一个全方位的,更为准确的概念点数据。

本发明具体包括以下步骤:

第一步:对视频按场景进行连续分割,得到若干视频片段,具体步骤包括:

1.1)将源视频组重新命名,对其中的第i个场景命名为Vi(Video)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110087415.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top