[发明专利]支持模糊评论挖掘的视频高效检索系统在审
申请号: | 202110971077.3 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113656641A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 严大莲;王华 | 申请(专利权)人: | 严大莲 |
主分类号: | G06F16/735 | 分类号: | G06F16/735;G06F16/78;G06F16/35;G06F40/289;G06F16/951;G06F16/955;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 443100 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 模糊 评论 挖掘 视频 高效 检索系统 | ||
1.支持模糊评论挖掘的视频高效检索系统,其特征在于,基于视频概念扩展的模糊检索,把视频需要表达无法直观获得的高层抽象概念信息进行挖掘提炼,扩展视频对象的被检索域,使得用户在检索视频时,即使提交一个模糊的抽象描述也能够精确高效的查询;
第一,通过对视频评论数据的挖掘和解析,提取视频的高层抽象概念,实现一套基于模糊评论挖掘的视频检索系统,第一步是获取评论,针对网络视频评论数据进行爬取,通过编码网络蜘蛛,对各类视频的评论数据进行收集,解决针对各类视频的动态网页信息爬取问题;
第二,在获取到评论之后,对评论中隐藏的信息进行挖掘,首先通过分词、词性标注、去停用词对评论数据进行清洗;然后采用关联规则挖掘算法,从评论中提取出频繁出现的名词集合,并通过孤立性剪枝和相关性剪枝去掉其中噪声集,此外,采用点互信息对可能的非主题频繁词进行过滤,最后得到与视频密切的特征词集合;
第三,在获取到特征词后,采用聚类算法对重复的表达进行聚类,本发明提出基于信息群落将视频的可能相关内容对应到一系列的特征名词以及围绕每一个特征词的相关主题,通过LDA主题模型对主题进行挖掘,评论挖掘完成后,每一个视频对应一个信息群落;检索系统基于Lucene开源检索框架实现;
获取视频评论并提取特征:首先采用关联规则相关分析从评论中提取出候选特征词集合,这时提取的特征词中存在各种噪声,采用孤立性和相关性进行剪枝,此外,结合网页标题并采用点互信息过滤掉与主题无关的特征词,最终提取出主题相关的特征词;
特征词聚类及潜在主题挖掘:在已经提取特征词的情况下进行特征词的聚类,按照类簇进行潜在主题挖掘,首先定义词语的字符相近度和语义相近度的计算,并利用该算法对词语的相近度进行定义,然后通过选择向量特征并融合k-means++聚类算法,对特征词进行聚类分析,最后按照特征词聚类结果,在原始语料库中通过LDA主题挖掘算法,对其中潜在主题进行再一次的挖掘;
视频高效检索系统由三个部分组成:评论获取子系统、评论挖掘子系统、视频检索子系统,其中评论获取依靠网络蜘蛛来获得,评论挖掘系统包含特征词抽取和主题挖掘,特征词抽取包括相关分析、词语剪枝、点互信息计算,主题挖掘依靠聚类分析和LDA主题挖掘算法实现,系统采用Java语言进行开发,系统运行过程中产生各种中间文件包括原始评论数据、分词结果、事物文件、剪枝结果、频繁特征词结果、聚类结果、LDA挖掘结果文件均以文本的形式存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于严大莲,未经严大莲许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110971077.3/1.html,转载请声明来源钻瓜专利网。