[发明专利]一种网络水军的探测与判定方法有效
申请号: | 201210050176.9 | 申请日: | 2012-02-24 |
公开(公告)号: | CN102629904A | 公开(公告)日: | 2012-08-08 |
发明(设计)人: | 张炜;郑中华;高威;帅志虎;周银行 | 申请(专利权)人: | 安徽博约信息科技有限责任公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 水军 探测 判定 方法 | ||
[技术领域]
本发明涉及网络分析技术领域,尤其涉及一种网络水军的探测与判定方法。
[背景技术]
互联网作为一种新的信息传播媒体,已成为思想文化信息的集散地和社会舆论的放大器。互联网时代,信息的传播和受众是无数个体散点,受众既是信息的接受者,又是信息的传播者,随之而产生了一些受雇于网络公关公司,为他人发帖回帖造势的网络人员,这些人互联网上集体炒作某个话题或人物,以达到宣传、推销或者攻击某些人或产品的目的。
“受雇佣的‘网络水军’在网络上发布虚假或诽谤信息,扰乱虚拟社会正常秩序,为了能够对网络水军的行为进行监管,有必要使用技术手段对网络水军进行探测和跟踪。
在目前虚拟社会管控领域,主要的网络水军探测技术是情感倾向分析方法,该方法的依据是网络水军在网上发布的帖子往往是非理性的、带有强烈感情色彩的,或是极力美化雇主的产品或服务,或是极力贬低雇主竞争对手的产品或服务,整体上倾向性比较强烈。通过倾向性分析可以明确网络传播者的意图和倾向。
采用情感倾向分析方法探测流程如下:
信息采集——信息提取——情感倾向性判定——同主题倾向性统计——网络水军预测和判定
上述方法主要是通过用户对某个主题的主观倾向性进行水军探测,即认为如果用户对某个主题发表的正面或负面信息比例过高,则认为该用户可能为网络水军。
目前主流的网络水军技术的具体做法是:先通过互联网采集信息,然后通过页面分析技术抽取元数据(比如信息发布者,发布时间,信息源)和正文,再使用机器学习的方法对正文进行情感分类,判断其为正面或负面信息,经过统计后,如果发现在一段时间内,某人发布的正面或负面信息的阈值超过一定的比例,则认为该人是网络水军。实际实施过程是采集到网页后,先使用正则表达式抽取元数据,再使用DOM树对正文进行解析,再使用基于机器学习的篇章倾向性分类器对正文进行情感分类,倾向性分类器需要事先经过训练,即先对文章进行正、负面标注,再使用文本特征选择算法和分类算法构建分类器。
在图2所示的现有技术网络过程中,现有技术在网络水军判定过程中,要先基于网页抽取出作者,正文信息,该抽取过程必须准确,不能引入噪音,否则会对后期的倾向性判定和统计造成影响;用户的观点必须要具有倾向性,这样才能够使用经过训练的倾向性分类器对用户观点进行判断;而且用户必须针对该主题发表多篇有倾向性的文章或回复,这样才能够进行统计判断。
上述现有技术的不足之处在于:
1、现有技术要求网络水军发表的文章必须具有明显倾向性,否则方法失效。而在现实社会中,很多网友观点并不具有明显倾向性。例如“贾君鹏”,“犀利哥”事件等,网络水军的观点只是恶搞,并无主观倾向;
2、现有技术要求在一定的时间段内,网络水军针对同一主题,必须发表多篇文章,否则无法识别。而事实上,网络水军往往由一个群体操纵某个主题的炒作,不大会出现同一个人对同一主题发布大量正负面言论的行为。
[发明内容]
本发明要解决的技术问题是提供一种网络水军的探测与判定方法。
为了解决上述技术问题,本发明采用的技术方案是,一种网络水军的探测与判定方法,包括用户行为采集,用户行为统计和网络水军分类器训练三个模块,具体步骤如下:
一、用户行为采集主要是通过网站日志或网页源码解析并获取用户的行为数据,具体获取过程是如下(1)至(4)的4个步骤:
(1)先确定要抽取的用户行为信息,编写配置文件,在配置文件中标识这些关键信息的位置;
(2)编写针对配置文件的解析程序;
(3)获取到网页源码或网站日志后,基于配置文件中的位置信息进行信息提取;
(4)将采集的用户行为信息发送给用户行为统计模块;
二、用户行为统计需要对周期性的对用户的行为进行统计,按照不同的周期,输出不同的行为统计值,主要为如下(5)至(7)的3个步骤:
(5)根据预先确定的统计时间间隔划分为若干个区间,并将每个统计区间的统计属性初始值置零;
(6)获取到用户行为后,获取该行为发生的时间,确定该属性的统计区间,并将该区间的响应统计属性值增1;
(7)输出每个统计区间相应的属性值;
三、网络水军分类器的训练由通过离线方式完成,先通过样本标注,再经过特征选择或分类算法构建,可以最终用于在线的对网络水军进行判定,包括如下(8)至(12)的5个步骤:
(8)先通过用户行为采集模块获得用户上网行为样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽博约信息科技有限责任公司,未经安徽博约信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210050176.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可以挂在墙上的两用风扇
- 下一篇:应用于单螺杆泵的滚轮支撑装置