[发明专利]神经网络训练方法及采用该方法的垃圾邮件过滤方法无效

专利信息
申请号: 201010144189.3 申请日: 2010-04-12
公开(公告)号: CN102214320A 公开(公告)日: 2011-10-12
发明(设计)人: 宋威 申请(专利权)人: 宋威
主分类号: G06N3/08 分类号: G06N3/08;G06Q10/00;H04L12/58
代理公司: 暂无信息 代理人: 暂无信息
地址: 214122 江苏省无锡市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 神经网络 训练 方法 采用 垃圾邮件 过滤
【说明书】:

【技术领域】

发明涉及垃圾邮件过滤系统,特别是关于一种基于鲁棒BP神经网络的垃圾邮件过滤方法。

【背景技术】

随着电子邮件在人们日常生活中的普及,同样也使得存储在用户邮箱中的垃圾邮件逐渐增多,给用户查看和管理操作带来诸多不便,为了方便其日常管理及阅读,现代网络电子邮件系统迫切需要一种准确、实时、高效的邮件分类与过滤技术,它按照邮件的发件人邮箱、IP、主题以及邮件正文等条件对邮件进行分类与过滤。

图1为现有技术中垃圾邮件判定模块图。请参阅图1所示,来自于Internet的邮件首先经过垃圾邮件过滤模块进行判定,然后将判定后的邮件发送给Email服务器。其判定的具体内容为:分别通过不同的方法对邮件的正文、邮件附件以及邮件的其它部分(包括发件人邮箱地址或IP等)进行判别,从邮件的任何一部分判定为垃圾邮件的则将该邮件发送给Email服务器并最终发送给接收客户端的垃圾邮件分类中,对于合法邮件则通过Email服务器最终发送给接收邮件客户端的合法邮件分类中。

垃圾邮件过滤技术的难点在于根据邮件的正文进行垃圾邮件识别,可以把这个难点看作是一种特殊的文本分类情况。文本分类是一种针对文本的监督的机器学习技术,它根据表示数据的特征和给定的分类结果为每个类找到一个合理的模型描述,然后再用这些描述对新数据进行分类。

分类算法是数据挖掘中最重要的技术之一,其分类类别是按照应用要求事先给定的,它根据表示数据的特征和给定的分类结果为每个类别找到一个合理的模型描述,然后再用这些描述对新数据进行分类。常用的分类方法包括临近算法(K-Nearest Neighbor)、朴素贝叶斯分类器(Naive Bayesian Classifier),以及决策树模型(Decision Tree Model)等。临近算法是最简单的分类算法,但是它的计算量非常大,并且当分类样本的分布不均匀时,会导致分类的结果不准确;朴素贝叶斯分类器发源于古典数学理论,有着坚实的数学基础。但是当表示数据的特征数比较多或者当特征间的相关性比较大时,朴素贝叶斯的分类效率不高;决策树模型通过构造树来解决分类问题,它易于构造出合理的分类规则,而且适合处理大型数据库,但是它存在对缺失数据敏感、忽略数据集特征间的关系以及过度拟合的问题。

现有技术中经常利用神经网络(Neural Network,NN)来实现分类算法。所述神经网络是模仿动物的脑神经元结构建立的分类体系,具有自学习、自适应的能力,是分类控制与智能技术的主要分支之一。虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统所能实现的行为却是非常强大的。反向传播神经网络(Back Propagation Neural Network,BPNN)具有监督学习与反向传播的特点,它根据训练数据的特征和已知的分类结果对未知数据进行分类处理。复杂数据的分类过程往往具有非线性的性质,BP神经网络能很好地处理这类问题但存在训练速度慢,会陷入局部最小解等缺点。

因此有必要提出一种改进的技术方案来克服上述问题。

【发明内容】

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

本发明的目的在于提供一种基于鲁棒BP神经网络的垃圾邮件过滤方法,其能够提高BP神经网络的训练速度,并提高垃圾邮件过滤的精确度。

根据本发明的一方面,本发明提供1、一种用于垃圾邮件过滤的BP神经网络的训练方法,其通过学习率来调整所述BP神经网络中每层之间的权重,其特征在于,其包括:

计算已知邮件的关键词的权重,并计算各种邮件分类所对应的目标值;

将所述已知邮件的权重输入到欲训练的BP神经网络中得到输出值;和

计算所述输出值和所述目标值的偏差,如果不符合训练结束条件,则修改BP神经网络的权重,进行下一代训练,直到输出值符合训练结束条件,其中设定预定数值代为一个阶段,每一个阶段更新一次学习率。

进一步的,BP神经网络中获取输出值和修改网络权值的具体过程为:

获取输出值的过程包括:采用一个输入层、隐藏层和输出层组成BP神经网络,输入层节点的个数等于所选用的关键词的个数,输出层的节点的个数等于最后分类的个数,所述分类为合法邮件与垃圾邮件两类;首先每一个输入点i接受到一个输入信号xi作为网络的输入,然后可计算隐藏层节点j接收到的信号为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋威,未经宋威许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010144189.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top