[发明专利]一种基于话题模型的社会化视频主题提取系统的提取方法有效

申请号：	201810083796.X	申请日：	2018-01-29
公开（公告）号：	CN108513176B	公开（公告）日：	2020-04-14
发明（设计）人：	田野;宣一鸣;张蓝姗;王文东;龚向阳;阙喜戎	申请（专利权）人：	北京邮电大学
主分类号：	H04N21/488	分类号：	H04N21/488;H04N21/475
代理公司：	北京永创新实专利事务所 11121	代理人：	冀学军
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于话题模型社会化视频主题提取系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于话题模型的社会化视频主题提取系统的提取方法，其特征在于，

所述提取系统包括：用户评论采集模块，原始评论数据库，用户评论预处理模块，主题检测模块，主题数据库以及结果展示模块；

用户评论采集模块从视频服务网站采集用户的原始评论数据，并存储到原始评论数据库中，用户评论预处理模块从原始评论数据库中提取原始评论数据进行预处理；并将处理后的评论数据，送入主题检测模块中，经主题检测算法获得与特定视频片段相关的细粒度主题关键词集合，并将结果写入主题数据库进行存储，供结果展示模块使用；

结果展示模块负责接受外部请求，并返回查询请求以及展示结果；

所述提取方法的步骤如下：

步骤一、针对用户选定的待处理视频，用户评论采集模块爬取某段时间内该视频的用户评论数据；

步骤二、用户评论预处理模块对每一条用户评论数据进行预处理，得到该条评论数据的预处理结果；

步骤三、主题检测模块对该待处理视频的预处理结果采用主题检测算法进行计算，获得细粒度主题关键词集合；

具体步骤如下：

步骤301、将每一条用户评论数据的预处理结果视为一个文档，该待处理视频该段时间内所有的预处理结果组成文档集合；

文档集合用D表示；

步骤302、针对每个文档，设定角色c，情感极性l和话题z三个标签并分别进行初始化；

步骤303、针对初始化标记后的文档，统计该段时间内所有文档中的四种弹幕条数数量；

四种弹幕统计量包括：关于角色c的弹幕条数数量关于角色c和情感极性l的弹幕条数数量表示关于角色c，情感极性l和话题z的弹幕条数数量以及在整个弹幕文档集合构建的词袋模型词典中，用来统计关于角色c，情感极性l，话题z下词汇w的词频数量

步骤304、基于概率图模型对文档集合进行建模，挖掘出隐含在弹幕中的与视频内容相关的主题信息；

该待处理视频所对应的每个用户评论数据中均包含了“角色”、“情感极性”、“话题”隐含变量；通过求后验分布，获得各个隐含变量的概率分布，构建的概率模型如下：

z_d,l_d,c_d表示文档d所在弹幕的随机变量；表示除去文档d所在弹幕的所有其余弹幕的随机变量；

其中，角色c通过多项分布抽样产生，c～Multionmial(ω)；ω是C维向量，表示关于角色c的多项式分布；C表示该待处理视频中人物的个数；根据狄利克雷分布获得“角色”的概率分布：ω～Dirichlet(δ)；δ是C维向量，表示角色c的先验信息；

在给定角色c的条件下，抽样生成该条评论的用户对角色c的情感极性l，即：l～Multionmial(π_c,l)；π_c,l是C×L维矩阵，表示关于角色c的多项式分布；L表示该待处理视频中情感极性的个数；对于每一个角色c，根据狄利克雷分布获得其情感极性l的概率分布：π_c～Dirichlet(γ_c)；γ_c是L维向量，表示以角色c作为情感的先验信息；

在给定角色c，情感极性l的条件下，选取该条评论所对应的话题z，即：z～Multionmial(θ_c,l,k)；θ_c,l,k是C×L×K维矩阵，表示关于角色c和情感极性l的多项式分布；K表示该待处理视频中话题的个数；对于每一个角色c和情感极性l，获得其话题z的概率分布：θ_c,l～Dirichlet(α_c,l)；α_c,l是C×L维矩阵，表示以角色c和情感极性l作为话题的先验信息；

在给定角色c，情感极性l以及话题z的条件下，生成评论中的各个词汇w，即：是C×L×K×V维矩阵，表示关于角色c，情感极性l和话题z的单词的多项式分布；V表示该待处理视频中字典的长度；对于每一个角色c，情感极性l和话题z，获得词汇w的概率分布：β_c,l,k,v是C×L×K×V维矩阵，表示以角色c，情感极性l，话题z作为单词的先验信息；

N_d表示文档d中单词的数量；d∈D；表示文档d中单词v的重复个数；

步骤305、将四种弹幕统计量和分别带入构建的概率模型中进行迭代，得到每个文档真实的角色c，情感极性l和话题z；

步骤306、利用每个文档真实的角色c，情感极性l和话题z，再次统计该段时间内所有文档中真实的四种弹幕数量；

步骤307、将每个文档真实的四种弹幕数量值分别带入数学期望公式，求取多项式分布生成的概率值；

ω_c为角色c的多项式分布，π_c,l为角色c-情感极性l的多项式分布，θ_c,l,k为角色c-情感极性l-话题z的多项式分布；为角色c-情感极性l-话题z-词汇w的多项式分布；

步骤308、取概率值最大的前N个单词作为角色c在真正的情感极性l下的真正话题所对应的细粒度主题关键词；

步骤四、将细粒度主题关键词集合写入主题数据库进行存储；

步骤五、结果展示模块调用主题数据库中的细粒度主题关键词进行展示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810083796.X/1.html，转载请声明来源钻瓜专利网。