[发明专利]一种基于向量空间模型的中文虚假评论过滤方法有效
申请号: | 201711129611.6 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107818173B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 刘珊;杨波;郑文锋;蔡礼高 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F40/289;G06F40/216;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于向量空间模型的中文虚假评论过滤方法,通过改进版向量空间模型判断评论间的相似性,将相似性高的评论作为虚假评论的一部分。同时结合评论的情感极性与用户评分,筛选出另一部分虚假评论。并且引入一部分真实评论样本,使用这两类样本训练BP神经网络。使用训练好的网络对未标签的评论进行判断。 | ||
搜索关键词: | 一种 基于 向量 空间 模型 中文 虚假 评论 过滤 方法 | ||
【主权项】:
一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤(1)、模拟网站登录,抓取评论;(2)、根据设定的评论长度L,剔除于L的评论;(3)、将评论分词处理,获得语句成分结构(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中出现次数最多的词的次数;n表示在整个语料中评论的总数,而表示含有当前词的评论数;(5.2)、构建改进版向量空间模型cos(di,dj)=Σk=1Nwikwjk|di||dj|]]>其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,wik表示第k个词汇在第i条评论中的词频TF和反词频IDF统计乘积;wij=TFij*IDFj=(fij/mi)*(log2nn‾+1)]]>(5.3)、利用改进版向量空间模型计算任意两条评论的相似度,筛选出相同或相似评论标记为虚假评论,并标记为正例样本一;(6)、根据BosonNLP情感词典数据和知网情感分析词数据对步骤(4)中未标记的评论进行进行情感打分,再根据情感得分进行情感极性判断,Score>0判断为正向,Score<0判断为负向;将情感极性为正且用户评分低于平均评判标准,或者情感极性为负且用户评分高于平均评判标准的评论标记为虚假评论,并作为负例样本二;(7)、对步骤(4)中未标记的评论按每个用户的评论次数对用户进行降序排序,再将前1%用户的所有评论标记为虚假评论,并作为负例样本三;(8)、将步骤(4)、(5)、(6)、(7)得到的正例样本和负例样本分别组成正例向量和负例向量;再将正例向量输入至BP神经网络,通过迭代,使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“1”;将负例向量输入至BP神经网络,通过迭代,使用使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“0”,以此来训练BP神经网络;(9)、将实时抓取的评论输入至训练好的BP神经网络,如果BP神经网络输出为“1”,则该评论为真实评论;如果BP神经网络输出为“0”,则该评论为虚假评论。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711129611.6/,转载请声明来源钻瓜专利网。