[发明专利]一种基于深度神经网络的微博社交机器人检测方法有效

专利信息
申请号: 202010509757.9 申请日: 2020-06-08
公开(公告)号: CN111428116B 公开(公告)日: 2021-01-12
发明(设计)人: 王海舟;商帅康;武玉豪;晋京;方钰舟;魏来 申请(专利权)人: 四川大学
主分类号: G06F16/951 分类号: G06F16/951;G06N3/04;G06N3/08
代理公司: 成都正华专利代理事务所(普通合伙) 51229 代理人: 代维凡
地址: 610064 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 神经网络 社交 机器人 检测 方法
【权利要求书】:

1.一种基于深度神经网络的微博社交机器人检测方法,其特征在于,包括以下步骤:

S1、采集微博中的用户数据并进行人工标注,构建人工标记数据集;

S2、提取步骤S1采集的用户数据的分类特征,所述分类特征包括元数据特征、互动特征、内容特征和时序特征;

其中元数据特征包括用户名长度特征、粉丝关注比特征、默认用户名特征、默认头像特征、信息完整度特征和综合等级特征;

所述粉丝关注比特征的计算公式为

其中, nfo为每个用户的粉丝数, nfr为关注数;

所述信息完整度特征的计算公式为

其中,βCI为个人描述信息完整度,N表示可供填写的个人描述信息栏目总数,pi表示第i个栏目的填写情况,wi表示第i个栏目的权值;

所述综合等级特征的计算公式为

其中,βCL为用户的综合等级,ci为第i项等级指标的值,ui为第i项等级指标的权值,M为参与运算的等级指标的个数;

互动特征包括博文评论数目均值特征、博文转发数目均值特征、博文点赞数目均值特征、博文来源多样性特征和博文转发比特征;

所述博文评论数目均值特征、博文转发数目均值特征、博文点赞数目均值特征的计算公式分别为

其中,aibixi分别为该用户的第i条博文的被评论数、被转发数、被点赞数,K为博文数;

所述博文来源多样性特征的计算公式为

其中, ms表示所有博文的来源的种类数;

所述博文转发比特征的计算公式为

其中,mR表示该用户转发的博文的数量;

内容特征包括博文@数目均值特征、博文@数目方差特征、博文#数目均值特征、博文#数目方差特征、博文URL数目均值特征、博文URL数目方差特征、博文字数方差特征、博文标点数目均值特征、博文标点数目方差特征、博文感叹词数目均值特征、博文感叹词数目方差特征、博文情感值均值特征和博文图片数目方差特征;

所述博文@数目均值特征、博文@数目方差特征的计算公式分别为

其中,χM(i)表示该用户的第i个博文的@数目;

所述博文#数目均值特征、博文#数目方差特征的计算公式分别为

其中,χH(i)表示该用户的第i个博文的#数目;

所述博文URL数目均值特征、博文URL数目方差特征的计算公式分别为

其中,χU(i)表示该用户的第i个博文包含的URL数目;

所述博文字数方差特征的计算公式为

其中,χL(i)表示该用户的第i个博文的字数,δVNWP表示博文字数的均值;

所述博文标点数目均值特征、博文标点数目方差特征的计算公式分别为

其中,χP(i)表示该用户的第i条博文的标点数目;

所述博文感叹词数目均值特征、博文感叹词数目方差特征的计算公式分别为

其中,χI(i)为该用户的第i条博文的感叹词的数目;

所述博文情感值均值特征的计算公式为

其中,χSS(i)表示该用户第i条博文的情感分数;

所述博文图片数目方差特征的计算公式为

其中, ap(i)为该用户的第i条博文的图片的数目,σMNPP是所有博文的图片数目的均值;

时序特征包括发布博文时间间隔均值特征、发布博文时间间隔方差特征、发布博文时间间隔最小值特征、发布博文时间间隔最大值特征、发布博文时间间隔突发性参数特征和发布博文时间间隔信息熵特征;

所述发布博文时间间隔均值特征、发布博文时间间隔方差特征的计算公式分别为

其中,χi为该用户的第i条博文和第i+1条博文之间的时间间隔;

所述发布博文时间间隔最小值特征为用户最小的μ个时间间隔的均值,所述发布博文时间间隔最大值特征为用户最大的μ个时间间隔的均值,计算公式分别为

其中,为时间间隔,μ为时间间隔个数;

所述发布博文时间间隔突发性参数特征的计算公式为

其中,φVTIPφMTIP分别为发布博文时间间隔的方差和均值,ε为位移因子;

所述发布博文时间间隔信息熵特征的计算公式为

其中,p(ei)为序列中长度为m的序列[e1,e2,e3,...,em]的ei的值在时间间隔序列θ中的概率;

S3、构建基于残差神经网络、双向门控循环单元及注意力机制的深度神经网络模型,所述深度神经网络模型包括由三个残差块构成的残差神经网络单元、由一层BiGRU和一层随机失活层构成的双向门控循环单元及由注意力机制层构成的注意力机制单元;所述残差神经网络单元中每个残差块由一维卷积层和正则化层的组合叠加三次组成,并通过由一层一维卷积层和一层正则化层叠加组成的跳跃连接部分直接连接每个残差块的输入和输出;所述注意力机制层后通过一层全连接层结合Sigmoid激活函数进行二分类并输出分类结果;

所述深度神经网络模型进行分类的方法为:

从数据集中的用户数据中提取特征向量构建时间序列;

对时间序列进行正则化处理,得到正则化处理后的特征序列X

将特征序列X输入到残差神经网络中,提取新的特征序列C

将新的特征序列C输入到BiGRU中,在时间维度上的特征提取后,经过随机失活层再次输出新的特征序列H

将新的特征序列H输入到注意力机制层中,计算特征序列H中每个特征的权值,并为所有特征赋予权值;

将赋予权值的所有特征输入到全连接层通过Sigmoid激活函数进行二分类并输出分类结果;

利用步骤S1构建的人工标记数据集训练模型,进行新浪微博社交机器人检测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010509757.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top