[发明专利]支持模糊评论挖掘的视频高效检索系统在审

专利信息
申请号: 202110971077.3 申请日: 2021-08-23
公开(公告)号: CN113656641A 公开(公告)日: 2021-11-16
发明(设计)人: 严大莲;王华 申请(专利权)人: 严大莲
主分类号: G06F16/735 分类号: G06F16/735;G06F16/78;G06F16/35;G06F40/289;G06F16/951;G06F16/955;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 443100 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 支持 模糊 评论 挖掘 视频 高效 检索系统
【权利要求书】:

1.支持模糊评论挖掘的视频高效检索系统,其特征在于,基于视频概念扩展的模糊检索,把视频需要表达无法直观获得的高层抽象概念信息进行挖掘提炼,扩展视频对象的被检索域,使得用户在检索视频时,即使提交一个模糊的抽象描述也能够精确高效的查询;

第一,通过对视频评论数据的挖掘和解析,提取视频的高层抽象概念,实现一套基于模糊评论挖掘的视频检索系统,第一步是获取评论,针对网络视频评论数据进行爬取,通过编码网络蜘蛛,对各类视频的评论数据进行收集,解决针对各类视频的动态网页信息爬取问题;

第二,在获取到评论之后,对评论中隐藏的信息进行挖掘,首先通过分词、词性标注、去停用词对评论数据进行清洗;然后采用关联规则挖掘算法,从评论中提取出频繁出现的名词集合,并通过孤立性剪枝和相关性剪枝去掉其中噪声集,此外,采用点互信息对可能的非主题频繁词进行过滤,最后得到与视频密切的特征词集合;

第三,在获取到特征词后,采用聚类算法对重复的表达进行聚类,本发明提出基于信息群落将视频的可能相关内容对应到一系列的特征名词以及围绕每一个特征词的相关主题,通过LDA主题模型对主题进行挖掘,评论挖掘完成后,每一个视频对应一个信息群落;检索系统基于Lucene开源检索框架实现;

获取视频评论并提取特征:首先采用关联规则相关分析从评论中提取出候选特征词集合,这时提取的特征词中存在各种噪声,采用孤立性和相关性进行剪枝,此外,结合网页标题并采用点互信息过滤掉与主题无关的特征词,最终提取出主题相关的特征词;

特征词聚类及潜在主题挖掘:在已经提取特征词的情况下进行特征词的聚类,按照类簇进行潜在主题挖掘,首先定义词语的字符相近度和语义相近度的计算,并利用该算法对词语的相近度进行定义,然后通过选择向量特征并融合k-means++聚类算法,对特征词进行聚类分析,最后按照特征词聚类结果,在原始语料库中通过LDA主题挖掘算法,对其中潜在主题进行再一次的挖掘;

视频高效检索系统由三个部分组成:评论获取子系统、评论挖掘子系统、视频检索子系统,其中评论获取依靠网络蜘蛛来获得,评论挖掘系统包含特征词抽取和主题挖掘,特征词抽取包括相关分析、词语剪枝、点互信息计算,主题挖掘依靠聚类分析和LDA主题挖掘算法实现,系统采用Java语言进行开发,系统运行过程中产生各种中间文件包括原始评论数据、分词结果、事物文件、剪枝结果、频繁特征词结果、聚类结果、LDA挖掘结果文件均以文本的形式存储。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于严大莲,未经严大莲许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110971077.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top