[发明专利]一种网络舆情分析方法有效

专利信息
申请号: 201310072137.3 申请日: 2013-03-07
公开(公告)号: CN103150432A 公开(公告)日: 2013-06-12
发明(设计)人: 高云棋;田丹;郭成林;刘红玉;刘丹;彭春林 申请(专利权)人: 宁波成电泰克电子信息技术发展有限公司
主分类号: G06F17/50 分类号: G06F17/50
代理公司: 成都宏顺专利代理事务所(普通合伙) 51227 代理人: 周永宏
地址: 315040 浙江省宁*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种网络舆情分析方法,具体通过使用AC自动机和正则表达式匹配出正文中的关键词和关键句式,并根据匹配的结果将文章表示为若干主题,通过为每种主题设定权值并计算页面的权值和,从而快速、准确的分析并判断页面是否属于舆情。本发明的方法以主题匹配代替简单舆情分析中的词语匹配,同时免去了聚类、分类等复杂步骤,能够在保证一定准确度的情况下能综合各种指标,对各种页面进行高速舆情分析,达到最快的分析速度。
搜索关键词: 一种 网络 舆情 分析 方法
【主权项】:
一种网络舆情分析方法,具体包括如下步骤:S1:参数初始化:待匹配的关键词表,包含若干个用于描述舆情信息的关键词,以及该关键词对应的主题编号;待匹配的关键句式表,包含若干个描述舆情信息的句式的正则表达式,以及该关键句式的所述主题编号;主题编号到主题性质与主题权值的映射表;S2:从待匹配的关键词表中读入每个要匹配的关键词,并将每个词语加入到AC自动机的词语树前缀中,完成词语树构建;S3:从待匹配的关键句式表中读入每种句式对应的正则表达式;S4:读入待分析页面,提取待分析页面的正文部分;S5:遍历正文,匹配正文中出现的关键词并计算出每一个关键词出现的次数,同时根据待匹配的关键词表查询出每个关键词对应的主题编号;S6:将正文部分中的内容根据标点或者空格划分为若干句,删去其中字数小于θs的句子,对于剩余的句子,进行关键句式匹配,其中,θs为预先设置的最小句子长度阈值;S7:根据步骤S5和S6匹配结果,确定正文部分的主题组合;S8:根据映射表,以及步骤S7得到的正文部分的主题组合,按如下公式计算正文的舆情指数:R=A1SS+A2SN‑A3SP‑A4SI‑A5SF;其中,SS为文章中出现的敏感类问题的权值和,SN为负面情感主题的权值和,SP为正面情感主题的权值和,SI为非舆情类主题的权值和,SF为描述国外情形主题的权值和,A1、A2、A3、A4、A5为预先设置的经验参数;S9:根据步骤S7和S8结果,若R≥Tr且文章中不包含用户设定的过滤关键字,同时文章描述内容涉及地区与用户设定的关注地区一致,则认定该正文为用户关心的舆情信息,其中,Tr为预先设置的认定一篇文章为舆情的最小门限值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波成电泰克电子信息技术发展有限公司,未经宁波成电泰克电子信息技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310072137.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top