[发明专利]基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法无效
| 申请号: | 201010192853.1 | 申请日: | 2010-05-31 |
| 公开(公告)号: | CN101894129A | 公开(公告)日: | 2010-11-24 |
| 发明(设计)人: | 俞能海;刘毅捷 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 230026*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 在线视频 分享 网站 结构 视频 描述 文本 信息 主题 发现 方法 | ||
1.一种基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法,其特征在于,包括文本信息增强、主题聚合和结果修正三大步骤:
所述的文本信息增强步骤为:
步骤a,对于单个视频V,抓取其本身及全部相关视频的文本描述信息,V的相关视频是由网站本身提供的,它们在内容层面具有一定的相关性;
步骤b,对视频V的文本信息建立BOW(Bag-Of-Words)模型,使用tfidf值做为该模型的描述;
步骤c,使用V的相关视频的文本信息对V本身BOW模型中词频一项进行修正与增强;
所述的主题聚合方法步骤为:
步骤d,对于整个视频数据集,按照词与词在单个视频中共同出现的概率构造单词相关度图;
步骤e,计算每个单词的混合权重,其中包括三个不同的权重:tfidf权重,相关度权重和KL变换投影权重;
步骤f,根据混合权重对单词集进行筛选,对筛选过后的单词相关度图进行拆分和合并处理,并定义每个子连通图上的顶点集合为一个主题核单元;
步骤g,根据主题核单元对视频数据集进行聚类,并合并聚类结果中重合率超过一定阈值的两类或多类;
所述的结果修正步骤为:
步骤h,抓取视频网站提供的,“使用该视频做为另一视频的回复”的结构化信息;
步骤i,根据“带有回复关系的两个视频必共享某种公共主题”的假设,利用回复及被回复视频的主题信息对当前视频主题进行修正。
2.根据权利要求1所述的视频主题发现方法,其特征在于,所述的步骤c具体为,
对单个视频Vi的所有相关视频进行处理,统计Vi中所有出现过的单词tfi(tk)在相关视频中出现文本的频率dfri(tk),依以下公式对tfi(tk)进行修正:
tfi′(tk)=tfi(tk)+dfri(tk)
之后利用新的tfi′(tk)值重新计算tfidf并构造文本信息的向量空间表达。
3.根据权利要求1所述的视频主题发现方法,其特征在于,所述的步骤d为,
对于整个视频数据集,按照词与词在单个视频中共同出现的概率构造单词互相关图Gt。Gt的各个顶点由各单词组成,链接顶点的边的权重由单词间相关度定义。其中词ti与词tj的相关度定义为:
其中,df(ti∩tj)是指在视频数据集中,单词ti与tj出现在同一文档中的频率。
4.根据权利要求1所述的视频主题发现方法,其特征在于,所述的步骤e为,计算每个单词的混合权重,其中包括三个不同的权重:tfidf权重wti,相关度权重wri和KL变换投影权重wpi,在计算出三种不同权重之后,合并计算各个单词的混合权重:
wci=αwti+βwri+(1-α-β)wpi。
5.根据权利要求4所述的权重计算方法中,其中KL变换投影权重的特征为:
首先构造tfidf矩阵,使每行表示一个文档,每列表示一个单词;其次计算该矩阵的自相关矩阵的特征值及对应特征向量;之后,将特征值按大小进行排序,保留包含总能量95%的部分,计其包含Ne个特征值;最后,计算保留下的特征值的对应特征向量Ek{k=1,2,...Ne}的能量和:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010192853.1/1.html,转载请声明来源钻瓜专利网。





