[发明专利]基于特征融合及筛选的虚假评论检测方法、系统及介质有效

专利信息
申请号: 202111623393.8 申请日: 2021-12-28
公开(公告)号: CN114492423B 公开(公告)日: 2022-10-18
发明(设计)人: 李树栋;钟国金;吴晓波;韩伟红 申请(专利权)人: 广州大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/216;G06K9/62
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 李斌
地址: 510006 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 特征 融合 筛选 虚假 评论 检测 方法 系统 介质
【权利要求书】:

1.基于特征融合及筛选的虚假评论检测方法,其特征在于,包括下述步骤:

获取文本评论,使用分词工具对文本评论进行操作后,捕捉前后词对信息,进行词向量训练得到评论文本特征;

获取文本评论对应的评论者信息,提取评论者及其行为信息确定评论者行为特征;

根据评论文本特征和评论者行为特征,应用多种异常检测算法提取虚假评论样本的异常信息,计算异常得分即虚假得分作为虚假分数特征;

所述虚假分数特征获得步骤具体为:

将评论文本特征和评论者行为特征进行归一化处理,得到归一化特征集;

分别应用6种异常检测方法计算归一化特征集中每一样本的异常分数,获得样本的6维异常分数作为样本的虚假得分;

将所有样本虚假得分进行拼接,获得虚假分数特征;

所述6种异常检测方法包括IForest算法、PCA算法、LOF算法、KNN算法、HBOS算法和AutoEncoder算法;

所述IForest算法利用叶子节点到根节点的路径长度计算异常分数,具体为:

对于单棵树,存在n个样本,其中样本x在孤立树上的高度计算公式如下:

其中,c(n)表示树的平均路径长度,h(x)表示调和数,为欧拉常数;

对于孤立森林,样本x在每棵树上的高度均值为E(h(x,n)),则IForest异常分数IForest_S(x,n)表示为:

所述PCA算法通过将向量矩阵特征分解为特征向量计算异常分数,具体为:

定义一个点x的PCA异常分数为PCA_S(x),设样本矩阵X有n个特征向量,则PCA异常分数计算公式为:

其中,zi为样本矩阵X中第i个特征向量,vi为沿该特征向量方向上的方差,即为该特征向量对应的特征值,XT为样本矩阵X的转置;

所述LOF算法利用密度计算异常分数,具体为:

设样本x的LOF异常分数为LOF_S(x),d(x,y)表示样本x到样本y的距离,dk(x,y)表示样本y是样本x第k远的距离,Ck(x)表示样本x第k类距离的邻域,则局部可达密度LRD的表达式为:

RD(x,y)=max{dk(x,y),d(x,y)}

通过LRD计算异常分数LOF_S(x)的表达式:

其中,LRDk(y)表示样本y的第k邻域内的样本到y的平均可达距离的倒数,LRDk(x)表示样本x的第k邻域内的样本到x的平均可达距离的倒数

所述KNN算法利用距离计算异常分数,具体为:

设样本集x的KNN异常分数为KNN_S(x),样本集中的某一样本点(x1,y1)到其他某点(x2,y2)的欧式距离表示为:

计算样本集x中所有点到样本点的距离,取出前n个样本点,设其中正样本数为i,则异常分数KNN_S(x)表示为:

所述HBOS算法将每个维度划分为多个区间,利用区间密度来计算异常分数,具体为:

设某个维度有N个数据,按梯度排序后,将连续的个数划分为一个区间;

每个区间的面积相同,区间宽度由每个区间第一个数和最后一个数决定,计算出每个区间的高度;设x为第x个样本,Hn(x)为第n个维度下x的高度,则HBOS异常分数HBOS_S(x)表示为:

所述AutoEncoder算法利用神经网络将一个高维输入用低维形式表示,当样本特征都是数值变量时,用MSE和MAE来计算异常分数,具体为:

设输入样本为X=(X1,X2,....,Xn),其中n代表n个维度;

样本X经过AutoEncoder算法重建后为XR=(X1R,X2R,....,XnR),AutoEncoder异常分数AutoEncoder_S(x)由MSE和MAE之和的负数来表示,公式为:

将评论文本特征、评论者行为特征及虚假分数特征进行拼接,获得虚假评论特征;

对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集;

所述多种特征选择方法包括卡方检验法、信息增益筛选法和树模型特征重要度筛选法;

所述卡方检验法通过计算每个特征与标签的卡方值大小来进行筛选,具体为:

设理论值为E,观测到的真实值为X,其中有k个样本,则卡方检验偏差计算公式为:

n表示总的频数,p表示理论频率,根据卡方值大小筛选出与标签相关性高的特征子集FeatureSet1

所述信息增益筛选法利用特征前后信息熵差值计算信息增益值来进行筛选,具体为:

设样本集为S,样本集中类别个数为C,pi表示第i类的概率,则信息熵计算公式为:

对于某特征X={x1,x2,...,xi},计算该特征每个值的条件熵后取平均:

最后计算该特征的信息增益值:

进而根据信息增益值大小筛选出相对重要的特征子集FeatureSet2

所述树模型特征重要度筛选法通过记录特征的分裂总次数以及平均信息增益对特征重要度进行筛选,具体为:

所述平均信息增益对特征重要度是在树节点分裂时,基于信息增益筛选法,将特征作为划分属性时计算的所有信息增益值取平均值得到;

依据各特征的平均信息增益对特征重要度,筛选出相对重要的特征子集FeatureSet3

基于集成学习中投票决策思想,对FeatureSet1、FeatureSet2、FeatureSet3三个重要特征子集取交集,得到评论特征集FeatureSetnew

将评论特征集输入XGBoost模型中进行训练,使用网格搜索法和贝叶斯法结合调参,获得参数最优下的识别结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111623393.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top