[发明专利]一种基于分布式框架的舆情并行关联挖掘方法有效
申请号: | 202110813202.8 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113254755B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 刘宇;彭艳兵;唐帅;李雪 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F40/289 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 框架 舆情 并行 关联 挖掘 方法 | ||
1.一种基于分布式框架的舆情并行关联挖掘方法,用于实现对各目标网络舆情文本的舆情数据挖掘,其特征在于,包括如下步骤:
步骤A.分别针对各目标网络舆情文本执行分词操作,获得各目标网络舆情文本分别所对应的各个分词,然后进入步骤B;
步骤B.根据预设热词库,获得各目标网络舆情文本分别所对应的热度,筛选获得热度大于预设文本热度下限阈值的各个目标网络舆情文本,构成各个待处理目标网络舆情文本,然后进入步骤C;
步骤C.针对各待处理目标网络舆情文本,通过提取待处理目标网络舆情文本所对应频繁出现的分词作为各个频繁项,并结合各频繁项在待处理目标网络舆情文本中的位置进行排序,构成待处理目标网络舆情文本所对应的频繁项集,进而获得各待处理目标网络舆情文本分别所对应的频繁项集,然后进入步骤D;
步骤D.分别针对各待处理目标网络舆情文本所对应的频繁项集,按预设分区数N,基于滑动窗口针对频繁项集逐个频繁项滑动下、所获各位置滑动窗口分别对应一个分区,各分区分别包含对应位置滑动窗口中的各频繁项,获得该频繁项集所对应的N个分区,即获得各待处理目标网络舆情文本分别所对应的N个分区,然后进入步骤E;
步骤E.分别基于参数n=1、…、N,针对各待处理目标网络舆情文本所对应的第n分区,通过有序森林存储模式的构建,作为该各第n分区共同所对应第n汇总分区所对应的有序模式森林,进而获得各汇总分区分别所对应的有序模式森林,然后进入步骤F;
步骤F.基于各汇总分区分别所对应的有序模式森林,根据针对有序模式森林中树节点的深度路径搜索应用,通过后缀树的构建,获得各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤G;
步骤G.针对各汇总分区分别所对应的各最大频繁候选项集,删除最大频繁候选项集中的冗余节点集合、低支持度节点集合,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤H;
步骤H.针对各汇总分区分别所对应的各最大频繁候选项集,执行降维操作,删除其中彼此之间构成子集的最大频繁候选项集,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤I;
步骤I.针对各汇总分区分别所对应的各最大频繁候选项集,通过预设置信度阈值、预设提升度阈值挖掘关键词,实现对各目标网络舆情文本的舆情数据挖掘。
2.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤C中,分别针对各个待处理目标网络舆情文本,执行如下步骤C1至步骤C3,获得各待处理目标网络舆情文本分别所对应的频繁项集;
步骤C1.获得待处理目标网络舆情文本所对应各不同分词分别出现的次数,并针对该各不同分词按其出现次数由高到低进行排序,然后进入步骤C2;
步骤C2.按公式选取该各不同分词排序中的前A个不同分词,作为该待处理目标网络舆情文本所对应的各个频繁项,然后进入步骤C3;其中,a表示比例数,L表示该待处理目标网络舆情文本所对应各不同分词的数量;
步骤C3.获得各频繁项分别在该待处理目标网络舆情文本中最后一次出现的位置,并按此顺序,由各频繁项构成该待处理目标网络舆情文本所对应的频繁项集。
3.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤E包括如下步骤E1至步骤E6;
步骤E1.初始化参数n=1,并进入步骤E2;
步骤E2.针对各待处理目标网络舆情文本所对应的第n分区,统计其中各不同频繁项出现次数分别与其中最大频繁项出现次数的比值,作为各不同频繁项分别对应的热度,并进入步骤E3;
步骤E3.针对各待处理目标网络舆情文本所对应的第n分区,统计其中各不同频繁项出现次数分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的频率,并进入步骤E4;
步骤E4.选择所包含各频繁项的热度、频率分别均小于预设频繁项热度阈值、预设频繁项频率阈值,且所包含频繁项个数不小于预设分区频繁项数阈值的各第n分区,删除该各第n分区,然后进入步骤E5;
步骤E5.基于剩余各第n分区中的各频繁项,构建有序森林存储模式,作为第n汇总分区所对应的有序模式森林,然后进入步骤E6;
步骤E6.判断n是否等于N,是则即获得各汇总分区分别所对应的有序模式森林,并进入步骤F;否则针对n的值进行加1更新,并返回步骤E2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110813202.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:低代码开发方法及装置
- 下一篇:密码破解方法、装置、设备和计算机可读存储介质