[发明专利]一种基于向量空间模型的中文虚假评论过滤方法有效
申请号: | 201711129611.6 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107818173B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 刘珊;杨波;郑文锋;蔡礼高 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F40/289;G06F40/216;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 空间 模型 中文 虚假 评论 过滤 方法 | ||
本发明公开了一种基于向量空间模型的中文虚假评论过滤方法,通过改进版向量空间模型判断评论间的相似性,将相似性高的评论作为虚假评论的一部分。同时结合评论的情感极性与用户评分,筛选出另一部分虚假评论。并且引入一部分真实评论样本,使用这两类样本训练BP神经网络。使用训练好的网络对未标签的评论进行判断。
技术领域
本发明属于机器学习技术领域,更为具体地讲,涉及一种基于向量空间模型的中文虚假评论过滤方法。
背景技术
随着互联网技术的日益成熟,消费者网络点评积极性逐渐增强,网络上产生了数量庞大的评论数据。用户利用这些评论信息辅助消费决策的同时,也饱受评论质量参差不齐、信息过载等问题的困扰。
网络在给消费者带来便捷体验的同时,也由于它本身的无地域限制的特点导致了消费依据匮乏、商品描述信息与实际不符等弊端。因此越来越多的消费者在消费前都不得不先去了解已购顾客对该产品的评价和态度,以便做出可靠的决策。但随着评价数量的飞速增长以及评价内容的五花八门,用户越来越难以获取有价值的评价信息。
仅依靠人工方法难以从海量的评论中识别出真正对用户有价值的信息,迫切需要自动化方法辅助人们进行甄别,因而对文本内容的评价筛查有重要的研究价值。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于向量空间模型的中文虚假评论过滤方法,基于BP神经网络识别影评网站的虚假评论,以便达到为用户提供真实的消费参考。
为实现上述发明目的,本发明为一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤
(1)、模拟网站登录,抓取评论;
(2)、根据设定的评论长度L,剔除于L的评论;
(3)、将评论分词处理,获得语句成分结构
(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;
(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;
(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;
(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型
(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计
TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中所有词的出现次数之和;
n表示在整个语料中评论的总数,而表示含有当前词的评论数;
(5.2)、构建改进版向量空间模型
其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,wik表示第k个词汇在第i条评论中的词频TF和反词频IDF统计乘积;
(5.3)、利用改进版向量空间模型计算任意两条评论的相似度,筛选出相同或相似评论标记为虚假评论,并标记为正例样本一;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711129611.6/2.html,转载请声明来源钻瓜专利网。