[发明专利]基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法无效
| 申请号: | 201010192853.1 | 申请日: | 2010-05-31 |
| 公开(公告)号: | CN101894129A | 公开(公告)日: | 2010-11-24 |
| 发明(设计)人: | 俞能海;刘毅捷 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 230026*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 一种基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法。属于网络多媒体信息处理领域。本发明的目的在于,在视频分享网站高噪声、主题数目不易确定的环境下,解决视频主题发现的技术问题。本发明主要利用视频分享网站上视频间链接关系来帮助视频主题的发现,包括利用抓取相关视频信息来调整视频BOW模型参数,进行文本信息增强;使用基于关键词的图模型进行主题聚合;以及利用视频与视频间回复关系暗示主题相似性的假设进行结果修正三大步骤。该方法可以在没有任何先验知识的前提下,自动的发现大量网络视频的主题结构,并对单个视频的主题进行有效的归纳,其效果较之常见的数种方法都有明显的进步。 | ||
| 搜索关键词: | 基于 在线视频 分享 网站 结构 视频 描述 文本 信息 主题 发现 方法 | ||
【主权项】:
一种基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法,其特征在于,包括文本信息增强、主题聚合和结果修正三大步骤:所述的文本信息增强步骤为:步骤a,对于单个视频V,抓取其本身及全部相关视频的文本描述信息,V的相关视频是由网站本身提供的,它们在内容层面具有一定的相关性;步骤b,对视频V的文本信息建立BOW(Bag‑Of‑Words)模型,使用tfidf值做为该模型的描述;步骤c,使用V的相关视频的文本信息对V本身BOW模型中词频一项进行修正与增强;所述的主题聚合方法步骤为:步骤d,对于整个视频数据集,按照词与词在单个视频中共同出现的概率构造单词相关度图;步骤e,计算每个单词的混合权重,其中包括三个不同的权重:tfidf权重,相关度权重和KL变换投影权重;步骤f,根据混合权重对单词集进行筛选,对筛选过后的单词相关度图进行拆分和合并处理,并定义每个子连通图上的顶点集合为一个主题核单元;步骤g,根据主题核单元对视频数据集进行聚类,并合并聚类结果中重合率超过一定阈值的两类或多类;所述的结果修正步骤为:步骤h,抓取视频网站提供的,“使用该视频做为另一视频的回复”的结构化信息;步骤i,根据“带有回复关系的两个视频必共享某种公共主题”的假设,利用回复及被回复视频的主题信息对当前视频主题进行修正。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010192853.1/,转载请声明来源钻瓜专利网。





