[发明专利]一种基于规则的交互式中文垃圾邮件过滤方法有效

专利信息
申请号: 201510724294.7 申请日: 2015-10-23
公开(公告)号: CN105323248B 公开(公告)日: 2018-09-25
发明(设计)人: 刘武;唐再良;文永革;赵永驰 申请(专利权)人: 绵阳师范学院
主分类号: H04L29/06 分类号: H04L29/06;H04L12/58
代理公司: 暂无信息 代理人: 暂无信息
地址: 621000 四川省绵阳市科创区九洲大道268*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于规则的交互式中文垃圾邮件过滤方法。包括步骤:(1)从中文垃圾邮件样本中提取中文垃圾邮件过滤规则;(2)用改进遗传算法训练得到规则的最佳权重分布;(3)加强用户和服务器之间的交互,收集并分析用户反馈的漏判和误判信息(4)用增量学习的方法及时调整敏感规则的权重。本发明提出的算法使用改进遗传算法训练规则权重分布,通过用户与服务器之间的交互收集误判和漏判信息,依分析结果用增量学习的方法修正规则权重,从而降低误判率和漏判率,提高过滤的自适应性。这种交互式的过滤方法在保证垃圾邮件识别率不受影响的前提下,减少了错判的发生,过滤效果更好;增量学习方法降低了重新训练的频度,提高了权重更新的速度,使过滤系统的整体性能得到提高。
搜索关键词: 一种 基于 规则 交互式 中文 垃圾邮件 过滤 方法
【主权项】:
1.一种基于规则的交互式中文垃圾邮件过滤方法,其特征在于,包括以下步骤:步骤(1),从垃圾邮件样本中提取中文垃圾邮件过滤规则,通过训练得到垃圾邮件过滤规则权重;具体执行以下步骤:步骤(1.1),分词;步骤(1.2),统计词频;步骤(1.3),选出词频最高的一组关键字;步骤(1.4),生成关键字过滤规则;步骤(1.5),通过训练得到规则权重;步骤(2),用改进遗传算法训练得到规则的最佳权重分布;生成中文垃圾邮件过滤规则后,需要用寻优算法为生成的中文过滤规则寻找最好的权重分布,采用改进的遗传算法训练得到最优权重分布,改进遗传算法采用实数编码方案,更便于进行数值优化,由于初始种群对遗传算法效能的发挥影响很大,所以采用小群体竞争法来确定初始种群,同时,为了保证搜索到的最佳个体不被各种遗传操作破坏,并保留父代群体的优良特性,允许父代群体与交叉变异后产生的新个体一起参与竞争,即两代竞争法;具体的遗传操作中,交叉算子采用优选父代自适应交叉算子,变异算子采用非一致自适应变异算子,而在产生子代群体个体时,采用最优保留策略和两两竞争选择策略,以保证算法的收敛性;最后,在算法的终止条件上,待群体进化稳定或者达到事先规定的进化代数时,终止遗传算法,具体执行以下步骤:步骤(2.1),利用小群体竞争法生产初始群体,并进行实数编码;步骤(2.2),进行适应值评价,判断是否适合终止条件,如果满足,输出最佳结果,转步骤(3);否则,转步骤(2.3);步骤(2.3),完整保留上代群体的一个备份;步骤(2.4),对上代群体进行优选杂交,产生自适应非一致变异;步骤(2.5),将上代群体的备份及步骤(2.4)所产生的自适应非一致变异进行匹配,生成匹配池;步骤(2.6),保留最优个体,其它个体采用两两竞争的方式优胜劣汰;步骤(2.7),通过最优个体与两两竞争的结果生成子代群体,转步骤(2.2);步骤(3),加强用户和服务器之间的交互,收集并分析用户反馈的漏判和误判信息,供步骤(4)进一步处理;一种基于规则的交互式中文垃圾邮件过滤方法中,服务器在判别邮件的同时,还提供了供用户反馈判别是否准确的接口,以便有效降低邮件误判率,具体执行以下步骤:步骤(3.1),用户收到经邮件服务器判别的邮件时,如果这封邮件是被误判的正常邮件,用户通过误判反馈接口将此误判信息反馈给服务器,服务器会将此邮件的标签从垃圾邮件改为正常邮件,再将误判信息放入误判信息集,等待进一步处理;步骤(3.2),如果这封邮件是被漏判的垃圾邮件,用户通过漏判反馈接口将此漏判信息反馈给服务器,服务器会将此邮件的标签从正常邮件改为垃圾邮件,再将漏判信息放入漏判信息集,等待进一步处理;步骤(4),用增量学习的方法及时调整敏感规则的权重;用户反馈的误判和漏判信息,需要进一步的处理,以便有效降低误判率;选择在两次重新训练之间,用增量学习法来处理用户的反馈信息,在不影响过滤精度的前提下,提高规则更新的速度和效率,具体执行以下步骤:步骤(4.1),处理误判邮件;具体执行以下步骤:步骤(4.1.1),邮件服务器收集误判样本,待误判信息集中的样本数目达到一定规模N误判时,对这些误判邮件样本所触发的过滤规则进行统计,给出其中每条规则被触发的邮件数目,设触发规则i的邮件数目为ni;步骤(4.1.2),按照规则i被触发的邮件数目ni对这些规则进行排序,从大到小地挑选出规则,将其权重作为待修改的规则权重;步骤(4.1.3),降低待修改规则的权重,设规则i修改前的权重为ωi,修改后的权重为ωi′,触发规则i的邮件数目为ni,误判邮件样本总数为N误判,则权重调整公式为:ωi′=ωi‑Δωi,其中,其中r为[0,1]间取值的随机数,b为系统参数,取值在实验过程中选择,上述公式中,Δωi与ωi本身的大小成正比,这是因为权重越大的规则,在被触发时,造成误判的可能性也越大,所以权重调整量应该越大,同时,规则i触发的邮件数目ni越大时,Δωi也越大,这是因为触发规则i的误判邮件数目越多,说明这条规则对误判的影响越大,相应的需要作较大的调整;步骤(4.2),处理漏判邮件;具体执行以下步骤:步骤(4.2.1),邮件服务器收集漏判样本,待漏判信息集中的样本数目达到一定规模N漏判时,对这些漏判邮件样本所触发的过滤规则进行统计,给出其中每条规则被触发的邮件数目,记触发规则i的邮件数目为ni;步骤(4.2.2),按照规则i被触发的邮件数目ni对这些规则进行排序,从大到小地挑选出规则,将它们的权重作为待修改的规则权重;步骤(4.2.3),适当提高待修改规则的权重,设规则i修改前的权重为ωi,修改后的权重为ωi′,触发规则i的邮件数目为ni,漏判邮件样本总数为N漏判,则权重调整公式为:ωi′=ωi+Δωi,其中,其中r为[0,1]间取值的随机数,b为系统参数,取值在实验过程中选择,上述公式中,Δωi与ωi本身的大小成反比,这是因为权重越小的规则,在被触发时,造成漏判的可能性也越大,所以权重调整量应该越大,同时,规则i触发的邮件数目ni越大时,Δωi也越大,这是因为触发规则i的漏判邮件数目越多,说明这条规则对漏判的影响越大,相应的需要作较大的调整;步骤(4.3),整体上调整判定阈值;将误判样本和漏判样本加入到最初用来训练规则权重的样本集中,用新的样本集和所有规则对垃圾邮件判定阈值进行调整,如果在阈值为某个值W时,邮件判定的正确率最高,则将这个值作为新的判定阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绵阳师范学院,未经绵阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510724294.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top