[发明专利]一种基于关系的垃圾评论检测方法无效
申请号: | 201310002583.7 | 申请日: | 2013-01-05 |
公开(公告)号: | CN103020482A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 张卫丰;王云;周国强;张迎周;王子元;周国富;钱小燕;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06Q30/00 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关系 垃圾 评论 检测 方法 | ||
技术领域
本发明涉及一种基于关系的垃圾评论检测的方法,主要是分析评论者、评论以及店家三者之间的相互关系特征,并提出了基于这个关系的模型,将这个模型和根据三者的其他特征所得到的模型相结合,达到对垃圾评论进行检测的目的。主要解决了当今技术为垃圾评论检测所提出的模型的单一性和局限性等问题,属于机器学习和数据挖掘领域。
背景技术
网上购物评论为顾客比较商品质量,店家服务和许多其他方面提供了有价值的信息。但现在出现垃圾评论者,他们的目的是通过发布虚假或不公平的评论,误导正常的顾客对商品或店家的印象。比如职业差评师,顾名思义,就是靠给别人差评生活的人,是由淘宝网催生的新兴职业。
在更广阔的领域,大多数关于垃圾活动的研究主要集中在网页和邮件领域.网页上的垃圾行为分为两大类:垃圾内容和垃圾链接。垃圾链接是在超链接上的垃圾行为,由于评论中一般不存在链接,所以垃圾链接不会出现在垃圾评论中。内容垃圾是指在网页中添加不相关的文字,以此欺骗搜索引擎。评论者不会在他们的评论中添加不相关的文字。垃圾邮件通常是指发送未经同意的商业广告。尽管在评论中会出现广告,但数量毕竟很少。
前期的垃圾评论检测算法都是使用评论者的行为辨别垃圾评论者,例如,评论文本的相似度,评分的相似度和偏差,垃圾评论的商品数量等。根据已有的研究,这些行为对特定类型的垃圾评论活动有效。例如,评论者在对相同商品的各种评论中使用大量的相似文本,评论者在短期内频繁的给不同的商品的评分异常的高或低,这个评论者很可能就是垃圾评论者。
Nitin和Liu于2008年首次提出了关于垃圾评论检测的问题。将垃圾评论分成三种类型:不真实的评论,只针对品牌的评论,没有评论内容的评论。使用监听的方法检测垃圾评论:首先,抽取一个关于评论,评论者和商品的特征集;然后,主要使用文本相似度和一些人工手段标识垃圾评论。基于这些特征和训练数据构造一个分类器,用于检测垃圾评论。该方法很大程度依赖于文本相似度,只对这种类型的垃圾评论行为有效果。
Jindal于2010年提出一种使用挖掘意外规则的算法检测垃圾评论。将每条评论看成与某个评价类相关的记录,这个评论类包括正面的评价类,否定的评价类以及中立的评价类。使用意外规则挖掘算法生成一个意外规则列表。然而这个方法不能区分真正的垃圾评论者,只能找到一些作为意外规则的奇怪行为。
Lim在2010年提出另一种基于评论者行为的垃圾评论检测方法。他们发现了许多垃圾评论行为的特征,例如,单一商品或一组商品上的各种评价或评论以及评分偏差。每个评论者在这些特征上获得不同的分数,再将这些分数进行线性结合,最后的总得分就是这个评论者的怀疑度。这个方法是非监督的,节省了许多人工标识的花费。然而,根据他们的研究本质上还是依赖于文本相似度。因此,也只能用于一些特殊类型的垃圾评论检测。
以上的各种方法的不足之处还在于,都只研究利用垃圾评论的文本或评分特征,这具有局限性。因此,迫切需要一种新的方法来检测垃圾评论。因为在网购中,评论者,评论,店家三者是不可孤立的个体,三者间存在许多内在的关系。因此找出这三者之间的关系,并将其应用到垃圾评论检测工作中,再找出该特征与其他行为特征的依赖关系,这将大大提高检测工作的精确度。
发明内容
技术问题:本发明的目的是提供一种新颖的基于关系的垃圾评论检测的方法。针对评论者、评论以及店家三者之间的关系特征,利用这个特征进行建模,将这个模型和根据三者的固有特征所得到的模型相结合,得到三个分别代表评论者、评论以及店家的相互联系的模型。最后,利用这些模型得到评论者的可信度、评论的诚实度以及店家的可靠度,根据一定的标准以达到检测垃圾评论的目的。
技术方案:本发明提出的基于关系的垃圾评论检测方法,是一种基于网购的评论者,评论以及店家的关系特征的检测方法。提出了评论者的可信度,评论的诚实度以及店家的可靠度的概念,并引出了三者相互关系:评论者所写的评论的诚实度越高,他的可信度就越高;店家拥有的来自可信的评论者的诚实评论越多,他的可靠度就越高;评论被其他诚实评论支持的个数越多,他的诚实度就越高。在当前垃圾评论检测的方法中,第一次提出这样的迭代关系,并将其应用到实际的检测工作中。利用这个的关系特征进行建模,将这个模型和三者的其他特征所得到的模型相结合,得到改进后的用于垃圾评论检测的模型。
基于关系的垃圾评论检测方法主要分为以下步骤:
步骤1)计算评论的诚实度分数:
步骤1.1)输入评论集合信息:
步骤1.2)获取所有评论的评分值和评论时间;
步骤1.3)计算评分的平均值和最早评论时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310002583.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安全帽外壳结构
- 下一篇:一种蒲公英果醋饮料制作方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用