[发明专利]一种基于分布式框架的舆情并行关联挖掘方法有效
申请号: | 202110813202.8 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113254755B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 刘宇;彭艳兵;唐帅;李雪 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F40/289 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 框架 舆情 并行 关联 挖掘 方法 | ||
本发明涉及一种基于分布式框架的舆情并行关联挖掘方法,首先将各目标网络舆情文本进行划分投影,生成各频繁项集;接着基于分区划分,设计有序模式森林,用于压缩存储舆情频繁模式;然后基于舆情频繁模式,提出深度路径搜索和长度优先超集检验,进行深度路径递归搜索生成最大舆情频繁候选项集,最后对舆情候选项集进行长度优先排序并检验超集,降低舆情候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题,且对数据集规模具有良好的扩展性。
技术领域
本发明涉及一种基于分布式框架的舆情并行关联挖掘方法,属于舆情数据挖掘技术领域。
背景技术
网络舆情是指在一定的时间空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大。传统的社会舆情存在于民间,存在于大众的思想观念和日常的街头巷尾的议论之中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意调查等方式进行,获取效率低下,样本少而且容易流于偏颇,耗费巨大。而随着互联网的发展,大众往往以信息化的方式发表各自看法,网络舆情可以采用 Apriori 数据挖掘算法技术自动抓取目标数据,效率高而且信息保真,覆盖面全。
关联规则算法是数据挖掘中一个重要的应用,关联规则挖掘是从大型数据集中挖掘相关信息的最佳技术之一。当关联规则挖掘算法在数据集规模较小的情况下执行,传统算法往往是有效的,然而随着数据集规模的增加,算法的效率也将下降。MapReduce方法使关联规则的挖掘过程非常快,许多基于MapReduce的关联规则算法陆续被提出,与传统方法相比,这些算法显示出较好的性能但仍存在一些局限性。由于频繁模式的反单调性,一个频繁模式包含很多频繁子模式,而一个频繁模式也能到处多个关联规则,因此关联规则数量巨大、且存在多个规则蕴含同个目标项目的情况广泛存在。
网络舆情信息的一大特点是信息量大、更新迅速、实时变化,在海量的网络信息中检索出目标信息,其难度可想而知。在以往关联规则推荐方法中,随着数据集规模的增加,对舆情频繁项进行挖掘时多容易产生巨大的冗余项集,算法效率大大降低。许多基于群集的并行算法能够处理大型数据集,但也带来诸如复杂性、数据同步、数据复制等许多问题,且大多数的数据挖掘算法都是基于内存迭代式的,每次迭代后的中间结果需要单独存储作为下一次迭代的输入,存在算法性能下降、并行化程度和效率低下等一系列问题。
发明内容
本发明所要解决的技术问题是提供一种基于分布式框架的舆情并行关联挖掘方法,采用全新架构与逻辑设计关系,能够有效解决大规模高维舆情数据下的频繁挖掘问题,提高数据挖掘的工作效率。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于分布式框架的舆情并行关联挖掘方法,用于实现对各目标网络舆情文本的舆情数据挖掘,包括如下步骤:
步骤A. 分别针对各目标网络舆情文本执行分词操作,获得各目标网络舆情文本分别所对应的各个分词,然后进入步骤B;
步骤B. 根据预设热词库,获得各目标网络舆情文本分别所对应的热度,筛选获得热度大于预设文本热度下限阈值的各个目标网络舆情文本,构成各个待处理目标网络舆情文本,然后进入步骤C;
步骤C. 针对各待处理目标网络舆情文本,通过提取待处理目标网络舆情文本所对应频繁出现的分词作为各个频繁项,并结合各频繁项在待处理目标网络舆情文本中的位置进行排序,构成待处理目标网络舆情文本所对应的频繁项集,进而获得各待处理目标网络舆情文本分别所对应的频繁项集,然后进入步骤D;
步骤D. 分别针对各待处理目标网络舆情文本所对应的频繁项集,按预设分区数,基于滑动窗口针对频繁项集逐个频繁项滑动下、所获各位置滑动窗口分别对应一个分区,各分区分别包含对应位置滑动窗口中的各频繁项,获得该频繁项集所对应的个分区,即获得各待处理目标网络舆情文本分别所对应的个分区,然后进入步骤E;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110813202.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:低代码开发方法及装置
- 下一篇:密码破解方法、装置、设备和计算机可读存储介质