[发明专利]一种基于平均影响力的网络空间群体性事件预警系统有效
| 申请号: | 201910212323.X | 申请日: | 2019-03-20 |
| 公开(公告)号: | CN110083701B | 公开(公告)日: | 2023-07-21 |
| 发明(设计)人: | 吴渝;艾伟东;李红波;林江鹏 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9532;G06F16/9538 |
| 代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 平均 影响力 网络 空间 群体性 事件 预警系统 | ||
1.一种基于平均影响力的网络空间群体性事件预警系统,其特征在于,包括:采集模块,预处理模块,识别模块,预警模块;其中,
采集模块,用于根据采集策略采集包括论坛、微博、新闻网站在内的网页数据;
预处理模块包括:文本内容子模块,用于对采集模块所爬取到的文本内容中短链接、表情和提及行为占文本内容总条数的比例,然后对文本内容进行分词,去除停用词,再根据预先构建的敏感词表将文本内容标注类别;用户特征子模块,用于对采集模块所爬取到的用户信息的基本信息进行提取;影响力子模块,用于根据用户特征子模块的提取的基本信息计算影响力相关指标;
识别模块包括:根据预先建立的分类模型,对预处理模块已处理好的数据进行分类,并将分类结果与网络空间群体性事件预警指标体系中每个指标的值输入到预警模块;
预警模块包括:通过识别模块的分类结果与预先设定的阈值比较,如果超出阈值,输出预警结果与可视化报告;
所述文本内容子模块,首先计算每条文本内容中短链接、表情和提及行为占文本内容总条数的比例,然后利用中文分词技术对采集模块爬取到的独立文本内容进行分词,去除停用词,再根据预先构建的敏感词表将文本内容标注类别,敏感词表可根据实际需要定期更新;
用户特征子模块,负责对采集模块所爬取到的用户信息进行处理,在处理爬取到的用户信息时,对具有同等效用的重复指标进行约简;
影响力子模块,负责计算衡量网络事件的影响力相关指标,主要包括平均影响力、用户活跃度,网络空间群体性事件与普通网络事件的用户组成有很大的区别,平均影响力和用户活跃度可体现这种组成的区别,平均影响力计算方法为:
其中InfUi为独立用户的影响力,αi为独立用户的权值;m表示参与网络事件的独立用户数量;
平均用户活跃度计算方法为:
其中TwUi为独立文本条数,RegiTimeUi为独立用户注册时间,βi为独立用户的权值;
所述预警指标体系包括:独立文本条数、评论数、转发数、参与用户数、平均影响力、认证用户比例、付费用户比例、用户活跃度中的任意一个或多个,部分指标可根据不同的爬取策略采用具有同等效用的其他名称。
2.根据权利要求1所述的一种基于平均影响力的网络空间群体性事件预警系统,其特征在于,所述采集模块通过预先设置的爬取策略对网页端微博及移动端微博进行爬取,获得微博中的文本数据,爬取策略包括随机模式和定制模式,定制模式包括设置采集的时间范围、关键字、数量、保存方式、是否爬取用户信息及转发评论的内容,随机模式可以根据用户ID进行随机爬取。
3.根据权利要求2所述的一种基于平均影响力的网络空间群体性事件预警系统,其特征在于,所述采集模块将设置完成的爬取策略作为配置文件输入到爬虫程序中,爬虫开始运行直到满足停止条件,采集完成后的数据,根据爬取策略生成供预处理模块需要的文件格式或直接存入数据库服务器中备用,采集模块是预警系统的数据来源,通过爬虫程序24小时不间断获取数据,保证预警系统的实时性,或者在爬取策略中设定一定的采集延时,保证预警系统的稳定性。
4.根据权利要求3所述的一种基于平均影响力的网络空间群体性事件预警系统,其特征在于,所述识别模块还包括:根据预先建立的分类模型利用数据库中的网络空间群体性事件库训练网络空间群体性事件分类模型,根据所述网络空间群体性事件分类模型对已由预处理模块处理过的信息进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910212323.X/1.html,转载请声明来源钻瓜专利网。





