[发明专利]基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法无效
| 申请号: | 201010192853.1 | 申请日: | 2010-05-31 |
| 公开(公告)号: | CN101894129A | 公开(公告)日: | 2010-11-24 |
| 发明(设计)人: | 俞能海;刘毅捷 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 230026*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 在线视频 分享 网站 结构 视频 描述 文本 信息 主题 发现 方法 | ||
技术领域
本发明涉及视频主题发现方法,特别涉及通过在线视频分享网站的结构信息及视频本身文本描述信息进行视频主题发现的方法。
背景技术
随着计算机多媒体技术以及网络技术的迅猛发展,视频媒体的传播变得越来越方便。迄今为止,国内外已有数家视频分享网站达到每分钟新上传视频超过20小时的程度。如此海量的数据,给数据管理、内容检索、信息挖掘、媒体推荐等技术需求带来了巨大的困难。做为最基本的对视频内容的理解的研究,视频主题发现是解决以上一系列问题的一处重要的着眼点。视频主题发现,是指判别出视频本身描述的事件或视频内容中包含的重要人物、物品、位置等信息。
目前关于视频主题发现的方案主要分为2种:学习型和非学习型。学习型的方法,主要需要利用已有的先验知识,或者大量的人工标注,来对主题建模。然后按照该模型对新视频进行分类。非学习型的方法,则主要利用数据本身的结构和性质,对数据本身的先验知识的需求降低了。在非学习型的方法中,按照是否需要预先给定主题数量,还可以再分为两类。在视频分享网站这种海量数据的情况下,预先指定主题数量是不现实的。而且,一般的不需要先验知识的主题发现方法,对于视频分享网站这种环境也并不能很好的适用。原因在于,这些方法都对数据的质量有较高的要求。对于视频分享网站而言,所能得到的数据经常呈现出非常杂乱的零星的状况。我们的方法,就是针对这种情况来进行视频主题发现的。
发明内容
本发明的目的在于,在视频分享网站高噪声、主题数目不易确定的环境下,提供对海量视频进行无监督的主题发现的解决方法。
为达到上述目的,本发明提供一种基于视频分享网站上视频间链接关系来帮助视频主题发现的方法,包括文本信息增强、主题聚合和结果修正三大步骤。
所述的文本信息增强步骤为:
步骤a,对于单个视频V,抓取其本身及全部相关视频的文本描述信息。V的相关视频是由网站本身提供的,它们在内容层面具有一定的相关性。
步骤b,对视频V的文本信息建立BOW(Bag-Of-Words)模型,使用tfidf值做为该模型的描述。
步骤c,使用V的相关视频的文本信息对V本身BOW模型中词频一项进行修正与增强。
所述的主题聚合方法步骤为:
步骤d,对于整个视频数据集,按照词与词在单个视频中共同出现的概率构造单词相关度图。
步骤e,计算每个单词的混合权重。其中包括三个不同的权重:tfidf权重,相关度权重和KL变换投影权重。
步骤f,根据混合权重对单词集进行筛选。对筛选过后的单词相关度图进行拆分和合并处理,并定义每个子连通图上的顶点集合为一个主题核单元。
步骤g,根据主题核单元对视频数据集进行聚类。并合并聚类结果中重合率超过一定阈值的两类或多类。
所述的结果修正步骤为:
步骤h,抓取视频网站提供的,“使用该视频做为另一视频的回复”的结构化信息。
步骤i,根据“带有回复关系的两个视频必共享某种公共主题”的假设,利用回复及被回复视频的主题信息对当前视频主题进行修正。
本发明的有益效果在于,通过对文本信息的增强,有效的抑制了文本噪声在主题发现过程中的干扰作用;通过基于图的视频主题聚类方法,避免了主题数量对先验知识的需求;并通过利用视频回复关系,对主题发现的结果进行了修正。
为了检验我们的方法的有效性,我们设计了基于人工打分的评价机制。我们的数据集一共包含网络视频文档共计2514762个。我们对每一个视频用不同方法提取5个最重要主题表述关键字。对随机抽样出的1000个视频的每个关键字,由人工按照是否具有代表性,排序是否表达其重要程度给出0-2分。如下表所附的实验结果所示,我们的方法取得了较原有方法更优秀的效果。同时,较之LDA方法,我们方法的时间复杂度由LDA(t=800)的26小时,缩短到了3小时。
表格1实验结果
附图说明
图1为应用本发明的对视频分享网站进行视频主题发现的系统示意图;
图2为本发明具体方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010192853.1/2.html,转载请声明来源钻瓜专利网。





