[发明专利]一种基于关系的垃圾评论检测方法无效

专利信息
申请号: 201310002583.7 申请日: 2013-01-05
公开(公告)号: CN103020482A 公开(公告)日: 2013-04-03
发明(设计)人: 张卫丰;王云;周国强;张迎周;王子元;周国富;钱小燕;许碧欢;陆柳敏 申请(专利权)人: 南京邮电大学
主分类号: G06F19/00 分类号: G06F19/00;G06Q30/00
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 叶连生
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 关系 垃圾 评论 检测 方法
【说明书】:

技术领域

发明涉及一种基于关系的垃圾评论检测的方法,主要是分析评论者、评论以及店家三者之间的相互关系特征,并提出了基于这个关系的模型,将这个模型和根据三者的其他特征所得到的模型相结合,达到对垃圾评论进行检测的目的。主要解决了当今技术为垃圾评论检测所提出的模型的单一性和局限性等问题,属于机器学习和数据挖掘领域。

背景技术

网上购物评论为顾客比较商品质量,店家服务和许多其他方面提供了有价值的信息。但现在出现垃圾评论者,他们的目的是通过发布虚假或不公平的评论,误导正常的顾客对商品或店家的印象。比如职业差评师,顾名思义,就是靠给别人差评生活的人,是由淘宝网催生的新兴职业。

在更广阔的领域,大多数关于垃圾活动的研究主要集中在网页和邮件领域.网页上的垃圾行为分为两大类:垃圾内容和垃圾链接。垃圾链接是在超链接上的垃圾行为,由于评论中一般不存在链接,所以垃圾链接不会出现在垃圾评论中。内容垃圾是指在网页中添加不相关的文字,以此欺骗搜索引擎。评论者不会在他们的评论中添加不相关的文字。垃圾邮件通常是指发送未经同意的商业广告。尽管在评论中会出现广告,但数量毕竟很少。

前期的垃圾评论检测算法都是使用评论者的行为辨别垃圾评论者,例如,评论文本的相似度,评分的相似度和偏差,垃圾评论的商品数量等。根据已有的研究,这些行为对特定类型的垃圾评论活动有效。例如,评论者在对相同商品的各种评论中使用大量的相似文本,评论者在短期内频繁的给不同的商品的评分异常的高或低,这个评论者很可能就是垃圾评论者。

Nitin和Liu于2008年首次提出了关于垃圾评论检测的问题。将垃圾评论分成三种类型:不真实的评论,只针对品牌的评论,没有评论内容的评论。使用监听的方法检测垃圾评论:首先,抽取一个关于评论,评论者和商品的特征集;然后,主要使用文本相似度和一些人工手段标识垃圾评论。基于这些特征和训练数据构造一个分类器,用于检测垃圾评论。该方法很大程度依赖于文本相似度,只对这种类型的垃圾评论行为有效果。

Jindal于2010年提出一种使用挖掘意外规则的算法检测垃圾评论。将每条评论看成与某个评价类相关的记录,这个评论类包括正面的评价类,否定的评价类以及中立的评价类。使用意外规则挖掘算法生成一个意外规则列表。然而这个方法不能区分真正的垃圾评论者,只能找到一些作为意外规则的奇怪行为。

Lim在2010年提出另一种基于评论者行为的垃圾评论检测方法。他们发现了许多垃圾评论行为的特征,例如,单一商品或一组商品上的各种评价或评论以及评分偏差。每个评论者在这些特征上获得不同的分数,再将这些分数进行线性结合,最后的总得分就是这个评论者的怀疑度。这个方法是非监督的,节省了许多人工标识的花费。然而,根据他们的研究本质上还是依赖于文本相似度。因此,也只能用于一些特殊类型的垃圾评论检测。

以上的各种方法的不足之处还在于,都只研究利用垃圾评论的文本或评分特征,这具有局限性。因此,迫切需要一种新的方法来检测垃圾评论。因为在网购中,评论者,评论,店家三者是不可孤立的个体,三者间存在许多内在的关系。因此找出这三者之间的关系,并将其应用到垃圾评论检测工作中,再找出该特征与其他行为特征的依赖关系,这将大大提高检测工作的精确度。

发明内容

技术问题:本发明的目的是提供一种新颖的基于关系的垃圾评论检测的方法。针对评论者、评论以及店家三者之间的关系特征,利用这个特征进行建模,将这个模型和根据三者的固有特征所得到的模型相结合,得到三个分别代表评论者、评论以及店家的相互联系的模型。最后,利用这些模型得到评论者的可信度、评论的诚实度以及店家的可靠度,根据一定的标准以达到检测垃圾评论的目的。

技术方案:本发明提出的基于关系的垃圾评论检测方法,是一种基于网购的评论者,评论以及店家的关系特征的检测方法。提出了评论者的可信度,评论的诚实度以及店家的可靠度的概念,并引出了三者相互关系:评论者所写的评论的诚实度越高,他的可信度就越高;店家拥有的来自可信的评论者的诚实评论越多,他的可靠度就越高;评论被其他诚实评论支持的个数越多,他的诚实度就越高。在当前垃圾评论检测的方法中,第一次提出这样的迭代关系,并将其应用到实际的检测工作中。利用这个的关系特征进行建模,将这个模型和三者的其他特征所得到的模型相结合,得到改进后的用于垃圾评论检测的模型。

基于关系的垃圾评论检测方法主要分为以下步骤:

步骤1)计算评论的诚实度分数:

步骤1.1)输入评论集合信息:

步骤1.2)获取所有评论的评分值和评论时间;

步骤1.3)计算评分的平均值和最早评论时间;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310002583.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top