[发明专利]用于过滤垃圾词的方法及系统在审
申请号: | 201610076776.0 | 申请日: | 2016-02-03 |
公开(公告)号: | CN105760445A | 公开(公告)日: | 2016-07-13 |
发明(设计)人: | 孙永超 | 申请(专利权)人: | 北京光年无限科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 张文娟;张杰 |
地址: | 100000 北京市石景山区石景山*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 过滤 垃圾 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于过滤垃圾词的方法,还涉及一种用于过滤垃圾词的系统。
背景技术
在互联网技术中,问答交互系统反馈给用户的交互信息事先应经过垃圾词过滤。也就是说,系统首先要对反馈给用户的交互信息进行垃圾词过滤,将确定为垃圾词的词语屏蔽掉,以确保问答交互系统的语言纯净度。
目前,现有的垃圾词过滤系统一般通过与基准垃圾词进行完全匹配或者部分匹配的方式来分辨垃圾词,然后将分辨出来的垃圾词过滤掉。可见,现有的垃圾词过滤系统仅限于过滤所列举的基准垃圾词,从而使得过滤的准确性和全面性均有不足,过滤效果不佳,由此可能在问答过程中出现比较严重的问题,并可能导致严重的后果。
发明内容
本发明所要解决的技术问题是:现有技术中的垃圾词过滤系统仅限于过滤所列举的基准垃圾词,从而使得过滤的准确性和全面性均有不足。
为了解决上述技术问题,本发明提供了一种用于过滤垃圾词的方法及系统。
根据本发明的一个方面,提供了一种用于过滤垃圾词的方法,其包括:
获取用户输入信息;
根据构建的垃圾词知识库,判断所述用户输入信息中是否包括待过滤垃圾词;其中,所述垃圾词知识库中保存有基准垃圾词和扩展垃圾词,所述扩展垃圾词由所述基准垃圾词扩展而成;
在判断出所述用户输入信息中包括待过滤垃圾词时,将所述待过滤垃圾词从反馈给用户的交互信息中过滤掉。
优选的是,上述用于过滤垃圾词的方法还包括:构建所述垃圾词知识库,其包括:
预先设置所述基准垃圾词;
依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词;
从所有疑似垃圾词中选出所述扩展垃圾词;
将所述基准垃圾词和所述扩展垃圾词保存到所述垃圾词知识库中。
优选的是,依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词,包括:
依次针对每个基准垃圾词,计算所述基准垃圾词的词向量与预设词库中的每个词的词向量的距离;
将所述预设词库中与所述基准垃圾词的词向量相距小于预设距离阈值的词向量所对应的词,确定为与所述基准垃圾词相对应的疑似垃圾词。
优选的是,从所有疑似垃圾词中选出所述扩展垃圾词,包括:
依次针对每个疑似垃圾词,判断在构建的评论知识库中是否存在至少一条包括所述疑似垃圾词的评论信息;
在判断出在所述评论知识库中存在包括所述疑似垃圾词的评论信息的情况下,判断所述评论信息中是否包括基准垃圾词或者扩展垃圾词;
在判断出所述评论信息中包括基准垃圾词或者扩展垃圾词的情况下,确定所述疑似垃圾词为候选垃圾词;
从所有候选垃圾词中选出所述扩展垃圾词。
优选的是,上述用于过滤垃圾词的方法还包括:更新所述垃圾词知识库,其包括:
依次对每个扩展垃圾词进行词向量聚类,得到与各个扩展垃圾词相对应的新疑似垃圾词;
从所有新疑似垃圾词中选出新扩展垃圾词;
将所述新扩展垃圾词作为所述扩展垃圾词保存到所述垃圾词知识库中。
根据本发明的另一个方面,提供了一种用于过滤垃圾词的系统,其包括:
信息获取模块,设置为获取用户输入信息;
判断模块,设置为根据构建的垃圾词知识库,判断所述用户输入信息中是否包括待过滤垃圾词;其中,所述垃圾词知识库中保存有基准垃圾词和扩展垃圾词,所述扩展垃圾词由所述基准垃圾词扩展而成;
过滤模块,设置为在所述判断模块判断出所述用户输入信息中包括待过滤垃圾词时,将所述待过滤垃圾词从反馈给用户的交互信息中过滤掉。
优选的是,上述用于过滤垃圾词的系统还包括:构建模块,设置为构建所述垃圾词知识库;
所述构建模块包括:
预设单元,设置为预先设置所述基准垃圾词;
词向量聚类单元,设置为依次对每个基准垃圾词进行词向量聚类,得到与各个基准垃圾词相对应的疑似垃圾词;
扩展垃圾词选择单元,设置为从所有疑似垃圾词中选出所述扩展垃圾词;
构建单元,设置为将所述基准垃圾词和所述扩展垃圾词保存到所述垃圾词知识库中。
优选的是,所述词向量聚类单元包括:
距离计算子单元,设置为依次针对每个基准垃圾词,计算所述基准垃圾词的词向量与预设词库中的每个词的词向量的距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京光年无限科技有限公司,未经北京光年无限科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610076776.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种表单文件解析方法及装置
- 下一篇:一种文件块的迁移方法和装置