[发明专利]基于自然语言处理的市长热线舆情决策支持方法及系统有效
申请号: | 202110440120.3 | 申请日: | 2021-04-23 |
公开(公告)号: | CN112860906B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 张子成;曹伟 | 申请(专利权)人: | 南京汇宁桀信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F40/284;G06K9/62 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 李晓 |
地址: | 210000 江苏省南京市栖霞区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自然语言 处理 市长 热线 舆情 决策 支持 方法 系统 | ||
1.一种基于自然语言处理的市长热线舆情决策支持方法,其特征在于,包括步骤:
(1)基于自然语言处理挖掘市长热线每日的热点事件;
对投诉工单进行分词和关键词提取,构造关键词FpTree;构造条件模式基,条件模式基是要挖掘的项集的前缀路径;构造条件FPTree,递归的在条件FPTree上进行挖掘关键词频繁项集,即热点事件;
(2)基于余弦相似度对热点事件进行精简分类;
(3)采用匹配多关键词的Hash索引法检索出含有热点事件关键词的投诉工单;
(4)采用改进的TextRank算法对检索出来的投诉工单进行摘要提取;
将工单内容处理为包含若干句子的文本,将句子转化为机器可以理解的句子向量;进行句子向量之间的余弦相似度计算,得到相似度矩阵,作为边权重;采用TF-IDF得分作为初始权重值;进行TextRank迭代,计算每个句子的TextRank值,得到句子排名;根据句子排名自动抽取摘要;
(5)工作人员根据摘要报告了解每日的热点事件给相关部门进行汇报。
2.根据权利要求1所述的基于自然语言处理的市长热线舆情决策支持方法,其特征在于,所述步骤(1)中,
关键词的提取方法为TF-IDF算法。
3.根据权利要求1所述的基于自然语言处理的市长热线舆情决策支持方法,其特征在于,所述步骤(1)中,所述构造关键词FpTree包括步骤:
(1.1)设定最小绝对支持度,扫描数据记录,生成关键词一级频繁项集,并按出现次数由多到少排序;
(1.2)再次扫描数据记录,对每条记录中出现的在步骤(1.1)中产生的关键词一级频繁项集,按步骤(1.1)的顺序排序。
4.根据权利要求1所述的基于自然语言处理的市长热线舆情决策支持方法,其特征在于,所述步骤(2)具体包括步骤:
(2.1)设置多个热点分类标志,每个热点分类标志包括若干关键词;
(2.2)计算热点分类标志的所有关键词,与热点事件之间的余弦相似度;
(2.3)找到热点分类标志中与热点事件余弦相似度最大的热点分类标志,并为热点事件打上热点分类标志。
5.根据权利要求4所述的基于自然语言处理的市长热线舆情决策支持方法,其特征在于,所述余弦相似度计算包括步骤:
1)将关键词频繁项集处理成One-Hot编码;
One-Hot编码是分类变量作为二进制向量的表示,将分类值映射到整数值,然后每个整数值被表示为二进制向量;
2)对One-Hot编码的关键词频繁项集进行余弦相似度计算。
6.根据权利要求1所述的基于自然语言处理的市长热线舆情决策支持方法,其特征在于,所述步骤(3)中,
将市长热线投诉工单文本数据库进行预处理,获得关键词与工单号对应的hash表,再采用多关键词检索,利用工单唯一主键对工单进行检索。
7.一种基于自然语言处理的市长热线舆情决策支持系统,采用权利要求1-6中任一项所述的基于自然语言处理的市长热线舆情决策支持方法,其特征在于,包括基础层、数据层、支撑层、应用层、服务层和用户层;
基础层包括机房和网络环境;
数据层包括基础库和智能库;基础库为一次数据,是原始的工单文本信息;智能库为二次数据,是处理过的数据库;
支撑层是算法和应用服务,包括FP-Growth、热点问题分类、信息检索和自动摘要提取;
应用层包括智慧舆情监督、智慧民生感知和智慧决策支持;
服务层包括web端和移动端;
用户层包括政府领导,业务人员和运维人员。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京汇宁桀信息科技有限公司,未经南京汇宁桀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110440120.3/1.html,转载请声明来源钻瓜专利网。