[发明专利]一种商品评价信息过滤方法及系统有效
申请号: | 201410178839.4 | 申请日: | 2014-04-29 |
公开(公告)号: | CN103996130A | 公开(公告)日: | 2014-08-20 |
发明(设计)人: | 周东 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 北京邦信阳专利商标代理有限公司 11012 | 代理人: | 王昭林;黄姝 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 商品 评价 信息 过滤 方法 系统 | ||
1.一种商品评价信息过滤方法,其特征在于,包括:
获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;
建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;
获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价。
2.根据权利要求1所述的商品评价信息过滤方法,其特征在于,还包括:
建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合,将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练,所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本;
获取到新评价后,如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中,则文本分类器对所述新评价的评价文本进行分类,如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本,则所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
3.根据权利要求2所述的商品评价信息过滤方法,其特征在于,还包括:
从所述广告垃圾评价集合中抽取广告关键词组成广告词典;
如果文本分类器将所述新评价分类为非广告垃圾评价文本,则通过所述广告词典对所述新评价的评价文本进行过滤,如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
4.根据权利要求3所述的商品评价信息过滤方法,其特征在于,还包括:
如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量小于预设广告阈值,则对所述评价文本进行垃圾评价文本分析,如果所述评价文本进行垃圾评价文本分析的结果为垃圾评价文本,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
5.根据权利要求4所述的商品评价信息过滤方法,其特征在于,所述垃圾评价文本分析包括:
计算所述评价文本分词后的单字占比率,如果所述单字占比率大于或等于预设的占比率阈值,则判断所述评价文本为垃圾评价文本。
6.一种商品评价信息过滤系统,其特征在于,包括:
样本获取模块,用于获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;
标识库建立模块,用于建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;
新评价判断模块,用于获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价。
7.根据权利要求6所述的商品评价信息过滤系统,其特征在于,还包括:
建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合,将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练,所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本;
获取到新评价后,如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中,则文本分类器对所述新评价的评价文本进行分类,如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本,则所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
8.根据权利要求7所述的商品评价信息过滤系统,其特征在于,还包括:
从所述广告垃圾评价集合中抽取广告关键词组成广告词典;
如果文本分类器将所述新评价分类为非广告垃圾评价文本,则通过所述广告词典对所述新评价的评价文本进行过滤,如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410178839.4/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置