[发明专利]一种基于神经网络的Web文本信息过滤方法在审

申请号：	201910585883.X	申请日：	2019-07-01
公开（公告）号：	CN110297900A	公开（公告）日：	2019-10-01
发明（设计）人：	文谟祥;杨与钦;李辉城;曾令均;杨泽辉	申请（专利权）人：	广州需你计算机服务有限公司
主分类号：	G06F16/335	分类号：	G06F16/335;G06F16/35;G06F17/27;G06F16/9535;G06N3/08
代理公司：	合肥律众知识产权代理有限公司 34147	代理人：	冯慧云
地址：	511400 广东省广州市番***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络信息过滤过滤神经网络算法神经网络学习文本信息过滤信息过滤技术降维处理输出过滤特征向量网页清洗文本内容文本信息最大匹配智能性分词向量网页文本分类保留
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及Web文本信息过滤技术领域，且公开了一种基于神经网络的Web文本信息过滤方法，包括如下步骤，S1：网页清洗；S2：采用最大匹配法对文本内容进行分词；S3：计算文本的特征向量，并进行降维处理；S4：神经网络学习；S5：神经网络过滤，根据评价向量对网页进行分类，输出过滤结果。该基于神经网络的Web文本信息过滤方法，采用神经网络算法，可严格过滤用户不感兴趣的Web文本，增强文本信息过滤的精度；并采用神经网络算法，使得过滤具有的一定的智能性，可保留一些用户可能感兴趣的文本信息。

技术领域

本发明涉及Web文本信息过滤技术领域，具体为一种基于神经网络的Web文本信息过滤方法。

背景技术

随着互联网的快速发展，网页的存量越来越大，庞杂的网页以不同的形式干扰着人们的日常生活。正因为如此，信息筛选、信息过滤才会变得格外重要。

Web过滤是指对文本信息的过滤，在文本过滤中，需要考虑文本是否符合用户需求，目前，Web文本过滤主要有两种方式，一种是基于内容的过滤，另外一种是协作过滤，基于内容的过滤主要是通过现有资源与用户描述文件的相关度进行过滤，过滤的效果取决于用户描述文件对用户偏好描述的精准性，协同过滤是根据用户的相似性来进行推荐，有可能为用户推荐出新的感兴趣内容，因此过滤效果难以达到预期的效果，

基于文本过滤的精度和智能性问题，本发明着重研究了利用神经网络过滤文本信息的问题，利用关键词过滤和神经网络对Web文本进行过滤，可以提高过滤的精准度，增强文本过滤的智能性。

发明内容

针对现有技术的不足，本发明提供了一种基于神经网络的Web文本信息过滤方法，解决了目前Web文本过滤难以符合用户要求的问题。

本发明提供如下技术方案：一种基于神经网络的Web文本信息过滤方法，包括如下步骤：

S1：网页清洗；

S2：采用最大匹配法对文本内容进行分词；

S3：计算文本的特征向量，并进行降维处理；

S4：神经网络学习；

S5：神经网络过滤，根据评价向量对网页进行分类，输出过滤结果。

优选的，所述步骤S1网页清洗具体步骤如下：

S1-1：去除页面中包含的注释、脚本、样式表等信息；

S1-2：根据页面的组织结构将页面划分为若干个信息块，如文本块、链接块、图像等；