[发明专利]一种商品评价信息过滤方法及系统有效
申请号: | 201410178839.4 | 申请日: | 2014-04-29 |
公开(公告)号: | CN103996130A | 公开(公告)日: | 2014-08-20 |
发明(设计)人: | 周东 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 北京邦信阳专利商标代理有限公司 11012 | 代理人: | 王昭林;黄姝 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 商品 评价 信息 过滤 方法 系统 | ||
技术领域
本发明涉及商品评价相关技术领域,特别是一种商品评价信息过滤方法及系统。
背景技术
随着电子商务的高速发展,越来越多的人选择在网上购买商品,然后进行评价,产生大量的商品评价信息。一个商品的全部评价信息会展示出来,供其他用户购买前参考,而有一些评价信息是用户基于其他目的或者随意评价而生成的,主要表现为广告评价和杂乱无章的垃圾评价,举例如下:
一、广告类评价,例如:
样例1:宝贝不错,描述一致,质量上乘,性价比很高的一款宝贝,物超所值了!很喜欢,是我想要的!买完后才知道,原来这款产品有内部秒杀地址,秒杀的价格要便宜好多好多哦,还是这家店,这款产品(复制下面的链接在浏览器中打开,时间有限)url.cn/XXXXX。
样例2:转让一双全新匡威,尺码38码,有需要请联系QQ XXXXXXXXX。
样例3:帮忙宣传一下,在这个群买可以打折,电商优惠群:XXXXXXXX,各种200-10100-5优惠免费得,网购达人可以关注一下,蚊子腿也是肉啊。
二、垃圾类评价,例如:
样例1:我吐兔兔继续找我下咯我。
样例2:啊啊啊啊啊啊啊啊啊轻轻轻轻轻轻轻轻啊啊啊啊啊啊啊轻轻啊啊啊啊啊啊企鹅啊啊啊啊啊瓦啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊娿啊去啊啊。
样例3:佛书店就是了空间的快速拉低斯卡拉迪欧但是的角度讲哦回看守所看看四i类到拉萨卡死哦奇偶的几岁偶加快速度拉萨的空间爱哦老大色欧赔抖擞说了宽度搜谱搜批评交付是滴哦开了德律风收到了渐叟的开发恐怕死艘平底那死都及深咖啡搜哎哈维企鹅王王企鹅我去额健康王企鹅逻辑气温死啊对期望企鹅啊风路记录卡附属的方式来开到付搜带我那看来是数量大赛。
上述这二类评价,都不是对一个商品自身相关的评价,并且,这些评价对其他购买该商品的用户起着噪音的作用,所以这类的评价展示是没有意义的,需要做识别过滤。
现有的广告与垃圾识别技术方案,主要有两种,分别为基于人工建立词典的识别过滤方法和基于统计的机器学习分类识别过滤方法,这两种方法如下:
(1)基于人工建立词典的识别方法:先抽取一部分样本评价数据,然后通过人工查看判断,总结提炼出一系列的具有广告评价代表性的关键词,组成词典。然后利用这些词典,对新的评价文本进行布尔型包含检查,如果一个评价同时包含字典中的一个或者多个关键词,就断定这个评价为广告评价。如上述示例中,可以提炼出关键词为:秒杀地址、QQ、请联系、优惠群,由这些关键词组成词典。这种方法主要用于广告评价的识别过滤。
(2)基于统计的机器学习分类识别方法:同样先由人工抽取一部分评价样本数据,并以这些样本数据为语料进行标注,如果一条评价信息属于广告或者垃圾评价,就标记为1,否则标记为0。待这些样本全部标记完成之后,将这些数据用作文本分类的训练集,然后选择一个文本分类算法,如朴素贝叶斯分类算法、Libsvm分类算法等,构造分类器,然后对一个新的评价文本进行自动分类,如果分到1这一类,就代表这条评价属于广告或者垃圾,反之,属于正常评价。这种方法的过滤准确率是和样本标注量成正比的,也就是样本集的标注量越大越好。
现有的二种技术方案,虽然对广告或者垃圾类评价识别过滤有较为明显的效果,但是都存在一定的缺陷。
对于第一种基于人工建立词典的过滤方法,该方法对广告类评价识别效果较好,但是主要存在如下缺陷:1)词典的建立完全依赖人工,需要人工观察到大量的广告评价,并且提取代表性广告关键词具有较强的主观性,这就会导致词典的建立不准确、不完整、不科学,从而导致准确率与召回率不可控。如果建立的词典包含了一些不够具有广告代表性的关键词,将会导致识别的准确率较低;如果建立的词典包含的代表性关键词数量不足,那将会导致召回率较低,也就是本来有很多新的广告评价,却识别出来的数量较少。2)无法对垃圾评价识别过滤,因为垃圾评价表现形式主要为变化多端的无语言规律文本,如上述垃圾评价的三个样例,代表性特征关键词不明显,所以很难建立一套词典专门用于识别垃圾评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410178839.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置