[发明专利]一种基于LDA和随机森林的微博谣言识别方法有效
申请号: | 201711483228.0 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108090046B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 曾子明;王婧 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 随机 森林 谣言 识别 方法 | ||
1.一种基于LDA和随机森林的微博谣言识别方法,其特征在于,包括以下步骤:
步骤1,使用爬虫方法从微博官方平台上收集微博数据,所述微博数据包括文本内容、点赞数、转发数、评论数、微博数、关注数、粉丝数、认证状态、谣言状态,根据微博官方平台和国家部门发布的谣言信息对微博数据进行人工标注;
步骤2,根据步骤1中所述文本内容进行无关字符过滤、文本分词、去停用词、数据变换处理,从而获得优化文本内容以及优化文本内容词语,并统计优化文本内容词语的数量,通过优化文本内容、优化文本内容词语、优化文本内容词语的数量以及z-score标准化处理步骤1中所述的点赞数、转发数、评论数、微博数、关注数、粉丝数从而得到z-score标准化微博数据,并根据z-score标准化微博数据计算用户可信度特征和微博影响力特征;
步骤3,通过LDA主题模型对步骤2所述优化文本内容以及优化文本内容词语进行建模计算,从而获得LDA主题分布概率、LDA优化文本内容与主题分布概率以及LDA优化文本内容词语与主题分布概率,将LDA优化文本内容与主题分布概率作为谣言识别的文本深层语义特征,并根据LDA优化文本内容与主题分布概率以及LDA优化文本内容词语与主题分布概率计算困惑度;
步骤4,根据步骤2中所述用户可信度特征、步骤2中所述微博影响力特征、步骤3中所述LDA主题分布概率,构建微博特征向量;
步骤5,根据步骤2中所述用户可信度特征、步骤2中所述微博影响力特征、步骤3中所述LDA优化文本内容与主题分布概率作为随机森林模型的输入特征,使用10折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数,所述最优参数结合步骤4中所述微博特征向量设计微博谣言分类器,并根据步骤1中所述人工标注的微博数据进行训练得到最终微博谣言分类器,应用于谣言甄别工作;
步骤1中所述微博数据为:
weiboi={doci,likei,reposti,commenti,numi,followingi,followeri,verifyi,fakei},1≤i≤M;
其中,M为微博数据的条数,i为微博数据的序号,doci为文本内容,likei为点赞数,reposti为转发数,commenti为评论数,numi为微博数,followingi为关注数,followeri为粉丝数,verifyi为认证状态,fakei为谣言状态;
步骤1中所述人工标注为:
通过微博官方平台来对用户状态进行认证,verifyi表示发布weiboi的用户是否通过新浪微博个人认证,若通过,则verifyi为1,否则verifyi为0,通过国家部门发布的谣言信息对微博数据进行谣言标记,若微博weiboi为谣言微博,则fakei为1,否则fakei为0;
步骤2中所述z-score标准化微博数据为:
z_weiboi={op_doci,op_wordi,op_ni,z_likei,z_reposti,z_commenti,z_numi,z_followingi,z_followeri,verifyi,fakei},1≤i≤M;
其中,op_doci为优化文本内容,op_wordi为优化文本内容词语,op_ni为优化文本内容词语的数量,z_likei为z-score标准化点赞数,z_reposti为z-score标准化转发数,z_commenti为z-score标准化评论数,z_numi为z-score标准化微博数,z_followingi为z-score标准化关注数,z_followeri为z-score标准化粉丝数;
步骤2中所述用户可信度特征为:
步骤2中所述微博影响力特征为:
步骤3中所述困惑度为:
D={op_word1,...,op_wordM}
pweiboi=(pi,1,...,pi,K),1≤i≤M;
其中,M为步骤1中所述微博数据的条数,op_ni为步骤2中所述优化文本内容词语的数量,op_wordi为步骤2中所述优化文本内容词语,p(op_wordi)为优化文本内容中优化文本内容词语的概率,D表示全部优化文本内容词语的集合,p(zj|op_doci)为步骤2中第i条z-score标准化微博数据的优化文本内容中第j个主题出现的概率,p(op_wordi|zj)是第j个主题中步骤2中第i条z-score标准化微博数据的优化文本内容词语出现的概率,K为困惑度perplexity最小时的主题个数,pweiboi为步骤2中第i条z-score标准化微博数据的LDA主题分布概率,pi,1~pi,K分别为z1~zK主题的概率;
步骤4中所述微博特征向量为:
cweiboi=(pi,1,...,pi,K,Reliabilityi,Influencei),1≤i≤M;
其中,M为步骤1中所述微博数据的条数,Reliabilityi为步骤2中所述用户可信度特征,Influencei为步骤2中所述微博影响力特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711483228.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分词方法、装置及可读存储介质
- 下一篇:一种文本相似度的确定方法及设备