[发明专利]一种网络舆情传播态势媒体联动分析方法有效
申请号: | 201510926525.2 | 申请日: | 2015-12-10 |
公开(公告)号: | CN105389389B | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 周银行;胡淦;郑中华 | 申请(专利权)人: | 安徽博约信息科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 舆情 传播 态势 媒体 联动 分析 方法 | ||
1.一种网络舆情传播态势媒体联动分析方法,包括以下步骤:
(1)网络信息收集和索引
使用网络信息采集雷达采集网站发布的互联网信息,该信息通常为html格式,运用网页预处理算法对正文中的标题,发表时间,正文进行数据提取,并将抽取后的数据发送到索引模块,索引模块在对上述字段进行分词处理后,建立倒排索引,实现文本的检索;
(2)网站影响力的加权估算
基于上述采集数据,采用考虑原创性、阅读量、转载量、评论量的影响力指标对网站的影响力进行加权计算,对每个网站的综合影响力进行打分,该分数作为后续统计分析时的站点权重;
其中:
所述原创性指网站内容是指作者首创,非抄袭的内容;
所述阅读量指网络用户对当前网站内容的浏览量;
所述转载量指的是当前网站内容被转载的次数;
所述评论量指网络用户对当前网站内容的评论数;
所述网站影响力的加权估算按照以下过程对存储信息进行统计分析:
a)分发模块接收到采集和索引模块发送的字段信息后,根据站点名将该信息发送到响应的站点统计模块;
b)站点统计模块初始化页面总数量N、页面总点击数C、页面总转载量Re、页面总评论数R、原创数量I为0;接收到分发模块发送的页面信息后,执行累加操作如下:
N=N+n,C=C+c,Re=Re+re,R=R+r,I=I+i;
其中c、re、r、i分别为该页面的点击数量、转载数量、评论数量、是否原创,当为原创时,i为1,否则为0;
c)站点统计模块完成每个站点的影响力计算,包括计算单个页面的平均点击量CR、平均转载量ReR、平均评论量RR、平均原创比率IR;定义:CR=C/N,ReR=Re/N,RR=R/N,IR=I/N;
d)对每个站点的平均点击量、平均转载量、平均评论量、平均原创比例进行归一化处理,具体方法如下:
其中:
maxCR为所有站点的最大CR值,minCR为所有站点中的最小的CR值,new_maxCR=1,new_minCR=0;
为所有站点的最大ReR值,为所有站点中的最小的ReR值,
maxRR为所有站点的最大RR值,minRR为所有站点中的最小的RR值,new_maxRR=1,new_minRR=0;
maxIR为所有站点最大的原创比率,minIR为所有站点最小的原创比率,new_maxIR=1,new_minIR=0;
e)基于CR′,ReR′,RR′,IR′对每个站点进行影响力计算,具体计算公式如下:
根据经验,WCR可以取值为0.50,取值为0.15,WRR取值为0.25,WIR取值为0.1;
(3)相关主题文章检索
用户根据相应的关注主题设定相关的布尔查询表达式,系统根据用户设定的表达式进行信息检索,查询出所有和该主题有关的文章信息;
(4)舆情联动趋势分析
根据用户设定的统计时间间隔,计算出每个时间段文章加权总数量值的变化情况,即文章总数量由单篇文章的权重累加得出,然后对计算得到的权重值按照设定标准划分为四个层次,由低到高分别为无联动、弱联动、中级联动以及强联动,在坐标轴中绘制出统计坐标,横轴为时间轴,纵轴为文章加权数量值,每个坐标值表示在当前时间点和前一个时间点之间互联网中出现的相关文章的加权值,每个坐标值所在层为当前的联动级别。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中所述网页预处理算法包括以下步骤:
对网页中的内容进行预处理时,会先创建一个预处理对象,预处理对象调用本地的自然语言解析脚本对网页中的正文进行信息预处理;
所述的本地的自然语言解析脚本主要包含了对自然语言的噪音的过滤、信息的归约以及变换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽博约信息科技股份有限公司,未经安徽博约信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510926525.2/1.html,转载请声明来源钻瓜专利网。