[发明专利]面向云平台的一种政务舆情监控方法在审

专利信息
申请号: 201510746977.2 申请日: 2015-11-04
公开(公告)号: CN105447081A 公开(公告)日: 2016-03-30
发明(设计)人: 侯朋;李勇波;季统凯 申请(专利权)人: 国云科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广东莞信律师事务所 44332 代理人: 余伦
地址: 523808 广东省东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 平台 一种 政务 舆情 监控 方法
【权利要求书】:

1.面向政务的一种舆情实时监控方法,其特征在于:所述的方法包括数据采集、数据预处理、数据分析及预警;所述的系统搭载在分布式集群上,由一个作为主节点的爬虫服务器和多个作为从节点的爬虫客户端组成,主节点负责任务分配,子节点负责任务执行,主从节点之间采用加密的心跳包进行通信;从节点上包括数据采集、预处理、分析及预警模块;所述的采集模块根据用户配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并自动过滤重复数据,构建主题数据库;数据预处理模块基于规则和自动混合的方式提取正文数据;数据分析及预警模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、热点分析,并对分析结果进行预警。

2.根据权利要求1所述的面向政务的一种舆情实时监控方法,其特征在于:所述的主从节点之间的通信,包括如下步骤:

第一步,用户开启采集任务;

第二步,主节点保存任务信息到元数据信息库;

第三步,主节点根据用户配置信息进行任务初始化;

第四步,主节点根据丛节点的CPU、内存、当前任务数等指标进行任务分配;

第五步,从节点接收任务;

第六步,从节点发送成功接收任务消息到主节点;

第七步,主节点写任务信息到元数据库;

第八步,从节点开始执行任务;

第九步,若主节点N次未接收到从节点心跳包,则视为丛节点宕机并记录到日志系统,并重新分配任务给其他节点。

3.根据权利要求1所述的面向政务的一种舆情实时监控方法,其特征在于:所述的采集模块具体处理流程是:

第一步,获取待采集的URL;

第二步,通过数据路由器对URL进行过滤;

第三步,抓取页面数据;

第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;

第五步,自动文本特征提取,生成网页指纹;

第六步,检测是否为有相同文章;

第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;

第八步,用TF_IDF算法提取N个关键词;

第九步,找到与其重合度最高的m篇文章;

第十步,若其重合度大于c则归为相应主题数据库;

第十一步,建立倒排索引以供其他模块使用。

4.根据权利要求2所述的面向政务的一种舆情实时监控方法,其特征在于:所述的采集模块具体处理流程是:

第一步,获取待采集的URL;

第二步,通过数据路由器对URL进行过滤;

第三步,抓取页面数据;

第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;

第五步,自动文本特征提取,生成网页指纹;

第六步,检测是否为有相同文章;

第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;

第八步,用TF_IDF算法提取N个关键词;

第九步,找到与其重合度最高的m篇文章;

第十步,若其重合度大于c则归为相应主题数据库;

第十一步,建立倒排索引以供其他模块使用。

5.根据权利要求1至4任一项所述的面向政务的一种舆情实时监控方法,其特征在于:所述的数据分析及预警模块具体处理流程是:

第一步,将主题数据库进行重构,选择有代表性的数据;

第二步,对每篇文档进行情感分析并计算分值Tendency∈[-1,1];

第三步,对上述分析结果记入预警数据库;

第四步,计算预警级别,其中degreei代表第i篇文档的热度,其计算公式为:

degreei=(praisei×0.3+commenti×0.7)/(houri+2)

其中:praisei代表赞数,commenti代表评论数,houri代表发帖时间到现在的时差;

第五步,根据预警策略和预警级别给予email或短信等相应预警信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510746977.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top