[发明专利]一种电商虚假评价的判断识别方法在审
申请号: | 201510249537.6 | 申请日: | 2015-05-16 |
公开(公告)号: | CN104881795A | 公开(公告)日: | 2015-09-02 |
发明(设计)人: | 吴雨浓;何宏靖;刘世林 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 虚假 评价 判断 识别 方法 | ||
技术领域
本发明涉及互联网领域,特别涉及一种电商虚假评价的判断识别方法。
背景技术
在当代,随着互联网的普及,电子商务已经成为一种被广泛利用的商业贸易方式。买卖双方主要是通过电商的网页或者是软件进行交易活动。由于电子商务没有传统的实体店面,对销售人员的数量要求也不高,所以相比传统交易模式更能够控制运营成本,因而有着更大的价格优势。但是,有很多不法商家为了提高自己的销量从而雇佣专业刷评价团队制造大量的虚假评价来对自己的商品进行虚假的宣传,从而欺骗消费者来提高自己的真实销量。
为了判别现在商家伪造的虚假评价,现有技术的主要的方法包括:1.统计评价相同内容的数量,如果同一评价出现的次数过多,即可判别为虚假评价;2.统计相同的ID,如果相同的ID在一段时间内发出很大数量的评价,即可判读为虚假评价。
现有的虚假评价判别方法主要是通过相同评价的内容和相同的评价人(ID)来进行判别。但是这两种判别方法都存在很大的问题。由于仅从相同的评价内容去判别,就会漏判很多的虚假评价,因为有些评价仅仅是有少数几个字不同,却不能被判别出是虚假评价,例如评价1:这些商品不错;评价2:这些东西不错。同样第二种判别方法也存在很大的技术缺陷,因为只认为相同ID发出的评价才是虚假评价,或者是相同ID发出一定数量的评价就是虚假评价;这样的判别方法是不完善,不准确的。因为现在的职业评价师会人工或者利用自动注册机来注册很多小号(所谓的小号是指,同一个人注册和使用的不同的ID号)然后用不同的小号对商品进行虚假购买最后进行虚假评价;在现有识别技术中因为虚假者所使用的ID号不相同,而不能将这些虚假评价识别出来。
发明内容
本发明的目的在于克服现有方法中仅仅通过统计相同评价内容和相同ID来判别虚假评价的不足,提供一种电商虚假评价的判断识别方法。除了统计商品的相同评价内容和相同评价ID,还采用机器学习的方法来判别相似的评价内容和相似的评价ID。通过客户机访问目标商品的网页,在访问的时候监测和自动分析目标页面并爬取该网页的关于用户评价内容数据和评价ID;再通过服务器对爬取到的评价内容数据进行判断:分析评价内容数据的相同数量和相似文本的概率,并统计结果;通过对评价ID进行分析,判断相同ID出现的次数和相似ID的概率并统计结果,通过将统计结果和预先设置的阈值进行比较,如统计结果高于设置的阈值即判断为虚假评价。
为了实现上述发明目的,本发明提供了以下技术方案:
一种电商虚假评价的判断识别方法;本发明提出的虚假评价的判别识别系统包括,客户机和服务器:通过客户机爬取网页数据并用服务器对客户机爬取的数据进行判别,具体技术方案包括以下步骤:
步骤(1):通过客户机访问目标商品的网址;分析目标商品的网页信息,并获取该网页的关于用户评价内容数据和评价ID。目前通过爬虫技术可以很方便的自动获取到目标网页中的相关信息,提取的速度快,可分析数据的总量巨大,所提取数据的分析方法成熟,成本低廉;通过客户机对目标商品的分析和数据取。
步骤(2):将客户机所获取到的相关数据输入到服务器中,对相关评价数据进行评价内容文本的相似度分析和ID相似度的分析;目前职业评价师所注册和使用的小号的ID具有一定规律性;一般情况下,职业评价师所注册的一系列ID号是根据系统推荐手动注册或者按照一定规律自动生成的,这样的方式所产生的ID号会具有较大的关联性和相似性,比如说ABC1、ABC2、ABC3、ABC4、ABC5.....ABCn。
具体的包括,步骤(2-1):在服务器端对接收到的评价内容进行统计分析,分别统计相同评价出现的数量;并通过文本相似性计算出其他的评价之间的相似概率值,如果该概率值高于预设的文本相似阈值(阈值的获得通过机器学习的方法自动获得),则将这些评价判定为由同一个人做出的相似评价;统计出相似评价的数量。
作为一种优选,所述步骤(2-1)中的文本相似性采用文本余弦相似性算法。
步骤(2-2):在服务器端对接收到的用户ID进行统计分析,分别统计相同ID出现的数量,并计算出其他不同的ID之间的相似概率值,如果该概率值高于预设的ID相似阈值(ID相似阈值也通过机器学习的方法自动获取),则将这些ID判定为是同一个人注册生成的ID;统计相似ID的数量。
步骤(2-3):在服务器端对用户ID发出评价的时间和频率进行判别,并计算出一个作弊因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510249537.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速购物的方法及装置
- 下一篇:差异化分辨率广告效果统计分析系统