[发明专利]一种基于神经网络的Web文本信息过滤方法在审
| 申请号: | 201910585883.X | 申请日: | 2019-07-01 |
| 公开(公告)号: | CN110297900A | 公开(公告)日: | 2019-10-01 |
| 发明(设计)人: | 文谟祥;杨与钦;李辉城;曾令均;杨泽辉 | 申请(专利权)人: | 广州需你计算机服务有限公司 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F17/27;G06F16/9535;G06N3/08 |
| 代理公司: | 合肥律众知识产权代理有限公司 34147 | 代理人: | 冯慧云 |
| 地址: | 511400 广东省广州市番*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经网络 信息过滤 过滤 神经网络算法 神经网络学习 文本信息过滤 信息过滤技术 降维处理 输出过滤 特征向量 网页清洗 文本内容 文本信息 最大匹配 智能性 分词 向量 网页 文本 分类 保留 | ||
本发明涉及Web文本信息过滤技术领域,且公开了一种基于神经网络的Web文本信息过滤方法,包括如下步骤,S1:网页清洗;S2:采用最大匹配法对文本内容进行分词;S3:计算文本的特征向量,并进行降维处理;S4:神经网络学习;S5:神经网络过滤,根据评价向量对网页进行分类,输出过滤结果。该基于神经网络的Web文本信息过滤方法,采用神经网络算法,可严格过滤用户不感兴趣的Web文本,增强文本信息过滤的精度;并采用神经网络算法,使得过滤具有的一定的智能性,可保留一些用户可能感兴趣的文本信息。
技术领域
本发明涉及Web文本信息过滤技术领域,具体为一种基于神经网络的Web文本信息过滤方法。
背景技术
随着互联网的快速发展,网页的存量越来越大,庞杂的网页以不同的形式干扰着人们的日常生活。正因为如此,信息筛选、信息过滤才会变得格外重要。
Web过滤是指对文本信息的过滤,在文本过滤中,需要考虑文本是否符合用户需求,目前,Web文本过滤主要有两种方式,一种是基于内容的过滤,另外一种是协作过滤,基于内容的过滤主要是通过现有资源与用户描述文件的相关度进行过滤,过滤的效果取决于用户描述文件对用户偏好描述的精准性,协同过滤是根据用户的相似性来进行推荐,有可能为用户推荐出新的感兴趣内容,因此过滤效果难以达到预期的效果,
基于文本过滤的精度和智能性问题,本发明着重研究了利用神经网络过滤文本信息的问题,利用关键词过滤和神经网络对Web文本进行过滤,可以提高过滤的精准度,增强文本过滤的智能性。
发明内容
针对现有技术的不足,本发明提供了一种基于神经网络的Web文本信息过滤方法,解决了目前Web文本过滤难以符合用户要求的问题。
本发明提供如下技术方案:一种基于神经网络的Web文本信息过滤方法,包括如下步骤:
S1:网页清洗;
S2:采用最大匹配法对文本内容进行分词;
S3:计算文本的特征向量,并进行降维处理;
S4:神经网络学习;
S5:神经网络过滤,根据评价向量对网页进行分类,输出过滤结果。
优选的,所述步骤S1网页清洗具体步骤如下:
S1-1:去除页面中包含的注释、脚本、样式表等信息;
S1-2:根据页面的组织结构将页面划分为若干个信息块,如文本块、链接块、图像等;
S1-3:从文本块中区分出版权、广告等非关键信息块。
优选的,所述步骤S2分词具体步骤如下:
S2-1:限定词的最大长度;
S2-2:从最大的长度开始在词库中进行匹配直到匹配成功;
S2-3:更新起点的位置,继续上一步骤只到所有文本分完。
优选的,所述步骤S3具体步骤如下:
S3-1:用特征向量表示文本内容,其中,为词条,为对应词条的权重值,定义为在中出现的频率的函数;
S3-2:构建评价函数;
S3-3:对特征集中的每一个特征进行评估;
S3-4:根据评估得分进行排序,选择特征得分较高的作为新的特征子集。
优选的,所述步骤S4中具体步骤为:
S4-1:初始化连接权值和节点阈值,利用BP神经网络进行训练;若满足训练精度,则停止训练;否则,进行S4-2的操作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州需你计算机服务有限公司,未经广州需你计算机服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910585883.X/2.html,转载请声明来源钻瓜专利网。





