[发明专利]用于过滤垃圾词的方法及系统在审
申请号: | 201610076776.0 | 申请日: | 2016-02-03 |
公开(公告)号: | CN105760445A | 公开(公告)日: | 2016-07-13 |
发明(设计)人: | 孙永超 | 申请(专利权)人: | 北京光年无限科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 张文娟;张杰 |
地址: | 100000 北京市石景山区石景山*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 过滤 垃圾 方法 系统 | ||
1.一种用于过滤垃圾词的方法,其特征在于,包括:
获取用户输入信息;
根据构建的垃圾词知识库,判断所述用户输入信息中是否包括待过滤垃圾词;其中,所述垃圾词知识库中保存有基准垃圾词和扩展垃圾词,所述扩展垃圾词由所述基准垃圾词扩展而成;
在判断出所述用户输入信息中包括待过滤垃圾词时,将所述待过滤垃圾词从反馈给用户的交互信息中过滤掉。
2.根据权利要求1所述的方法,其特征在于,还包括:构建所述垃圾词知识库,其包括:
预先设置所述基准垃圾词;
依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词;
从所有疑似垃圾词中选出所述扩展垃圾词;
将所述基准垃圾词和所述扩展垃圾词保存到所述垃圾词知识库中。
3.根据权利要求2所述的方法,其特征在于,依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词,包括:
依次针对每个基准垃圾词,计算所述基准垃圾词的词向量与预设词库中的每个词的词向量的距离;
将所述预设词库中与所述基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与所述基准垃圾词相对应的疑似垃圾词。
4.根据权利要求2所述的方法,其特征在于,从所有疑似垃圾词中选出所述扩展垃圾词,包括:
依次针对每个疑似垃圾词,判断在构建的评论知识库中是否存在至少一条包括所述疑似垃圾词的评论信息;
在判断出在所述评论知识库中存在包括所述疑似垃圾词的评论信息的情况下,判断所述评论信息中是否包括基准垃圾词或者扩展垃圾词;
在判断出所述评论信息中包括基准垃圾词或者扩展垃圾词的情况下,确定所述疑似垃圾词为候选垃圾词;
从所有候选垃圾词中选出所述扩展垃圾词。
5.根据权利要求2至4中任一项所述的方法,其特征在于,还包括:更新所述垃圾词知识库,其包括:
依次对每个扩展垃圾词进行词向量聚类,得到与各个扩展垃圾词相对应的新疑似垃圾词;
从所有新疑似垃圾词中选出新扩展垃圾词;
将所述新扩展垃圾词作为所述扩展垃圾词保存到所述垃圾词知识库中。
6.一种用于过滤垃圾词的系统,其特征在于,包括:
信息获取模块,设置为获取用户输入信息;
判断模块,设置为根据构建的垃圾词知识库,判断所述用户输入信息中是否包括待过滤垃圾词;其中,所述垃圾词知识库中保存有基准垃圾词和扩展垃圾词,所述扩展垃圾词由所述基准垃圾词扩展而成;
过滤模块,设置为在所述判断模块判断出所述用户输入信息中包括待过滤垃圾词时,将所述待过滤垃圾词从反馈给用户的交互信息中过滤掉。
7.根据权利要求6所述的系统,其特征在于,还包括:构建模块,设置为构建所述垃圾词知识库;
所述构建模块包括:
预设单元,设置为预先设置所述基准垃圾词;
词向量聚类单元,设置为依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词;
扩展垃圾词选择单元,设置为从所有疑似垃圾词中选出所述扩展垃圾词;
构建单元,设置为将所述基准垃圾词和所述扩展垃圾词保存到所述垃圾词知识库中。
8.根据权利要求7所述的系统,其特征在于,所述词向量聚类单元包括:
距离计算子单元,设置为依次针对每个基准垃圾词,计算所述基准垃圾词的词向量与预设词库中的每个词的词向量的距离;
疑似垃圾词确定子单元,设置为将所述预设词库中与所述基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与所述基准垃圾词相对应的疑似垃圾词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京光年无限科技有限公司,未经北京光年无限科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610076776.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种表单文件解析方法及装置
- 下一篇:一种文件块的迁移方法和装置