[发明专利]文本过滤方法、系统、设备及计算机可读存储介质有效

申请号：	201711449882.X	申请日：	2017-12-27
公开（公告）号：	CN110019763B	公开（公告）日：	2022-04-12
发明（设计）人：	陆韬	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06F16/335	分类号：	G06F16/335;G06F16/36;G06F16/332
代理公司：	上海弼兴律师事务所 31283	代理人：	薛琦;张冉
地址：	100195 北京市海淀区杏石口路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本过滤方法系统设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本数据过滤方法、系统、设备及计算机可读存储介质，其中，所述方法包括：创建垃圾文本信息库，所述垃圾文本信息库存储有至少一垃圾文本数据；对垃圾文本数据进行特征提取，生成垃圾文本特征向量，结合每一特征的权重训练垃圾文本预测模型；对目标文本数据进行特征提取，生成目标文本特征向量，将目标文本特征向量输入垃圾文本预测模型，以计算目标文本数据为垃圾文本数据的概率；根据概率判断目标文本数据是否为垃圾文本数据。本发明能够弥补现有技术中通过人工审核管理论坛、社区或贴吧等发布内容而导致对管理员的粘性过大、占用较多资源的不足，智能化地过滤属于垃圾文本数据的目标文本数据，提高判别效率。

技术领域

本发明涉及文本处理领域，尤其涉及一种文本过滤方法、系统、设备及计算机可读存储介质。

背景技术

现在网络上存在很多论坛、社区或贴吧等多种形式的、可供人们发表自身看法或评论的网站或渠道，这类网站或渠道在给人们提供自由言论的空间的同时，也可能出现一些毫无意义的垃圾评论或涉及敏感主题的不当言论，因此，对这类网站或渠道提供适当的监管也是十分必要的。

现阶段的监管方式通常是由网站管理员配合预设的关键词对论坛内容、社区文章内容、帖子内容或评论内容等进行人工的筛选和过滤，删除毫无意义的垃圾信息或敏感信息。

这种监管方式十分依赖于人工审核管理。管理员需要实时地浏览论坛、社区或贴吧等，对于较为热门的内容由于浏览人员数目过多、信息量较大，管理员难以一一过滤，很容易出错，对管理员的粘性过大，占用了较多的资源。

发明内容

本发明要解决的技术问题是为了克服现有技术中通过人工审核管理论坛、社区或贴吧等发布内容而导致对管理员的粘性过大、占用较多资源的缺陷，提供一种能够自动过滤垃圾文本的文本过滤方法、系统、设备及计算机可读存储介质。

本发明是通过以下技术方案解决上述技术问题的：

本发明提供一种文本数据过滤方法，其特点是，所述文本数据过滤方法包括：

创建垃圾文本信息库，所述垃圾文本信息库存储有至少一垃圾文本数据；

对所述垃圾文本数据进行特征提取，生成垃圾文本特征向量，结合每一特征的权重训练垃圾文本预测模型；