[发明专利]一种垃圾邮件过滤的中文关键词规则生成方法在审
申请号: | 201810521174.0 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108763449A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 张凌;张启华;张晶;徐傲雪;黄康泉 | 申请(专利权)人: | 华南理工大学;赛尔网络有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/08;H04L12/58 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件过滤 规则生成 特征提取 中文 神经网络算法 词频 关键词特征 规则触发 计算规则 垃圾邮件 通用词汇 遗传算法 用户群体 用户特征 邮件集中 邮件数据 候选词 时效性 改进 学习 | ||
本发明公开了一种垃圾邮件过滤的中文关键词规则生成方法,该方法主要包括从邮件集中获取关键词候选词、特征提取得到关键词、获取关键词规则触发情况、为关键词规则赋分值四个步骤,对比当前技术,本发明提出的方法改进了关键词特征提取方法,结合词频和文档频率的特征提取方法降低通用词汇的影响,使用神经网络算法计算规则分值,比较遗传算法降低了学习的开销。本发明解决当前中文关键词规则时效性不足,并且能够根据一个特定的用户群体对于垃圾邮件的定义以及提供的邮件数据集生成最符合用户特征的关键词规则。
技术领域
本发明涉及互联网安全的技术领域,尤其是指一种垃圾邮件过滤的中文关键词规则生成方法。
背景技术
随着互联网的发展,尤其是移动互联网的高速发展,网络通讯手段愈加丰富,但是电子邮件作为互联网应用最广的服务依然保持着其不可替代性。如今网络上泛滥的垃圾邮件会浪费大量网络资源,增加用户处理邮件的时间成本,一些病毒垃圾邮件的传播甚至会直接造成巨大的经济损失。经过各国研究人员数十年的研究,现在已经积累了成熟且丰富的反垃圾邮件技术,主要包括基于邮件发送原理对发件人身份检测的技术如黑、白名单,SPF检测,蜜罐技术等;基于用户行为的过滤技术如并发控制、频率控制等;基于邮件内容过滤的方法,结合机器学习及统计学知识通过基于概率及基于规则两类方法实现。基于规则的垃圾邮件过滤的开源解决方案中SpamAssassin效果尤佳。在Spam Assassin的规则中有一类为关键词规则,关键词规则的工作原理是扫描邮件头和邮件体,检查其中是否包含有垃圾邮件中的常用词汇,每一条关键词规则被赋予特定的权重分数,SpamAssassin官方只维护英文关键词规则,因此不能检查出来中文邮件中是否包含垃圾邮件的常用词语,在2004年CCERT使用词频统计和遗传算法开发出了一份中文规则,但是从2006年就不再更新,随着时间的推移,垃圾邮件的常用关键词也会发生变化,上文提及的规则集在时效性上存在不足,CCERT在提取关键词特征时,使用词频统计,选取在垃圾邮件集中词频最高的词汇,这种方法会将一些同时会出现在垃圾邮件和普通邮件中的常用词汇视作垃圾邮件的关键词,这样显然时不合理的,并且CCERT使用旧版SpamAssassin提供的遗传算法为规则计算分值,自3.4版本以来,SpamAssassin已更新为神经网络算法,对比遗传算法神经网络算法能够有效地减少学习时间开销,另外用户对于垃圾邮件的判定往往有不同的标准。综合以上的问题,提出一种根据特定的邮件集生成中文关键词规则的解决方案具有重要意义。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种垃圾邮件过滤的中文关键词规则生成方法,能够根据用户提供的特定邮件数据集自动生成最符合用户需求的中文关键词规则,用于基于规则的垃圾邮件过滤方案中。
为实现上述目的,本发明所提供的技术方案为:一种垃圾邮件过滤的中文关键词规则生成方法,该方法通过对给定邮件数据集进行数据预处理获取该数据集中邮件的邮件头以及邮件体部分的所有词汇作为关键词候选词,通过结合词频和文档频率的特征提取方法选定关键词,进而使用该关键词规则对上述邮件数据集进行邮件过滤从而得到关键词规则在垃圾邮件和正常邮件的触发情况,并且使用此触发情况作为神经网络算法的输入,通过随机下降方法训练神经网络直到过滤效果收敛,将训练得到的权重转化为规则的分数,最终得到的规则即可应用于基于规则的邮件过滤的解决方案中;其具体包括以下步骤:
1)通过邮件筛选、邮件解析、中文分词对邮件数据集进行预处理得到关键词候选词集合;
2)对候选词集合的全部词汇统计词频、文档频率,通过先比较词频后比较文档频率的特征提取从候选词集合中选出关键词;
3)收集邮件数据集中每封邮件的关键词触发情况,并格式化触发情况数据;
4)根据上述关键词触发情况通过神经网络算法对关键词规则赋分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;赛尔网络有限公司,未经华南理工大学;赛尔网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810521174.0/2.html,转载请声明来源钻瓜专利网。