[发明专利]一种网络舆情分析方法有效
申请号: | 201310072137.3 | 申请日: | 2013-03-07 |
公开(公告)号: | CN103150432A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 高云棋;田丹;郭成林;刘红玉;刘丹;彭春林 | 申请(专利权)人: | 宁波成电泰克电子信息技术发展有限公司 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 成都宏顺专利代理事务所(普通合伙) 51227 | 代理人: | 周永宏 |
地址: | 315040 浙江省宁*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网络舆情分析方法,具体通过使用AC自动机和正则表达式匹配出正文中的关键词和关键句式,并根据匹配的结果将文章表示为若干主题,通过为每种主题设定权值并计算页面的权值和,从而快速、准确的分析并判断页面是否属于舆情。本发明的方法以主题匹配代替简单舆情分析中的词语匹配,同时免去了聚类、分类等复杂步骤,能够在保证一定准确度的情况下能综合各种指标,对各种页面进行高速舆情分析,达到最快的分析速度。 | ||
搜索关键词: | 一种 网络 舆情 分析 方法 | ||
【主权项】:
一种网络舆情分析方法,具体包括如下步骤:S1:参数初始化:待匹配的关键词表,包含若干个用于描述舆情信息的关键词,以及该关键词对应的主题编号;待匹配的关键句式表,包含若干个描述舆情信息的句式的正则表达式,以及该关键句式的所述主题编号;主题编号到主题性质与主题权值的映射表;S2:从待匹配的关键词表中读入每个要匹配的关键词,并将每个词语加入到AC自动机的词语树前缀中,完成词语树构建;S3:从待匹配的关键句式表中读入每种句式对应的正则表达式;S4:读入待分析页面,提取待分析页面的正文部分;S5:遍历正文,匹配正文中出现的关键词并计算出每一个关键词出现的次数,同时根据待匹配的关键词表查询出每个关键词对应的主题编号;S6:将正文部分中的内容根据标点或者空格划分为若干句,删去其中字数小于θs的句子,对于剩余的句子,进行关键句式匹配,其中,θs为预先设置的最小句子长度阈值;S7:根据步骤S5和S6匹配结果,确定正文部分的主题组合;S8:根据映射表,以及步骤S7得到的正文部分的主题组合,按如下公式计算正文的舆情指数:R=A1SS+A2SN‑A3SP‑A4SI‑A5SF;其中,SS为文章中出现的敏感类问题的权值和,SN为负面情感主题的权值和,SP为正面情感主题的权值和,SI为非舆情类主题的权值和,SF为描述国外情形主题的权值和,A1、A2、A3、A4、A5为预先设置的经验参数;S9:根据步骤S7和S8结果,若R≥Tr且文章中不包含用户设定的过滤关键字,同时文章描述内容涉及地区与用户设定的关注地区一致,则认定该正文为用户关心的舆情信息,其中,Tr为预先设置的认定一篇文章为舆情的最小门限值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波成电泰克电子信息技术发展有限公司,未经宁波成电泰克电子信息技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310072137.3/,转载请声明来源钻瓜专利网。
- 上一篇:方形横流式闭式冷却塔
- 下一篇:一种除尘灯罩