[发明专利]一种垃圾邮件过滤的中文关键词规则生成方法在审

申请号：	201810521174.0	申请日：	2018-05-28
公开（公告）号：	CN108763449A	公开（公告）日：	2018-11-06
发明（设计）人：	张凌;张启华;张晶;徐傲雪;黄康泉	申请（专利权）人：	华南理工大学;赛尔网络有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06N3/08;H04L12/58
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	冯炳辉
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	垃圾邮件过滤规则生成特征提取中文神经网络算法词频关键词特征规则触发计算规则垃圾邮件通用词汇遗传算法用户群体用户特征邮件集中邮件数据候选词时效性改进学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种垃圾邮件过滤的中文关键词规则生成方法，该方法主要包括从邮件集中获取关键词候选词、特征提取得到关键词、获取关键词规则触发情况、为关键词规则赋分值四个步骤，对比当前技术，本发明提出的方法改进了关键词特征提取方法，结合词频和文档频率的特征提取方法降低通用词汇的影响，使用神经网络算法计算规则分值，比较遗传算法降低了学习的开销。本发明解决当前中文关键词规则时效性不足，并且能够根据一个特定的用户群体对于垃圾邮件的定义以及提供的邮件数据集生成最符合用户特征的关键词规则。

技术领域

本发明涉及互联网安全的技术领域，尤其是指一种垃圾邮件过滤的中文关键词规则生成方法。

背景技术

随着互联网的发展，尤其是移动互联网的高速发展，网络通讯手段愈加丰富，但是电子邮件作为互联网应用最广的服务依然保持着其不可替代性。如今网络上泛滥的垃圾邮件会浪费大量网络资源，增加用户处理邮件的时间成本，一些病毒垃圾邮件的传播甚至会直接造成巨大的经济损失。经过各国研究人员数十年的研究，现在已经积累了成熟且丰富的反垃圾邮件技术，主要包括基于邮件发送原理对发件人身份检测的技术如黑、白名单，SPF检测，蜜罐技术等；基于用户行为的过滤技术如并发控制、频率控制等；基于邮件内容过滤的方法，结合机器学习及统计学知识通过基于概率及基于规则两类方法实现。基于规则的垃圾邮件过滤的开源解决方案中SpamAssassin效果尤佳。在Spam Assassin的规则中有一类为关键词规则，关键词规则的工作原理是扫描邮件头和邮件体，检查其中是否包含有垃圾邮件中的常用词汇，每一条关键词规则被赋予特定的权重分数，SpamAssassin官方只维护英文关键词规则，因此不能检查出来中文邮件中是否包含垃圾邮件的常用词语，在2004年CCERT使用词频统计和遗传算法开发出了一份中文规则，但是从2006年就不再更新，随着时间的推移，垃圾邮件的常用关键词也会发生变化，上文提及的规则集在时效性上存在不足，CCERT在提取关键词特征时，使用词频统计，选取在垃圾邮件集中词频最高的词汇，这种方法会将一些同时会出现在垃圾邮件和普通邮件中的常用词汇视作垃圾邮件的关键词，这样显然时不合理的，并且CCERT使用旧版SpamAssassin提供的遗传算法为规则计算分值，自3.4版本以来，SpamAssassin已更新为神经网络算法，对比遗传算法神经网络算法能够有效地减少学习时间开销，另外用户对于垃圾邮件的判定往往有不同的标准。综合以上的问题，提出一种根据特定的邮件集生成中文关键词规则的解决方案具有重要意义。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种垃圾邮件过滤的中文关键词规则生成方法，能够根据用户提供的特定邮件数据集自动生成最符合用户需求的中文关键词规则，用于基于规则的垃圾邮件过滤方案中。

为实现上述目的，本发明所提供的技术方案为：一种垃圾邮件过滤的中文关键词规则生成方法，该方法通过对给定邮件数据集进行数据预处理获取该数据集中邮件的邮件头以及邮件体部分的所有词汇作为关键词候选词，通过结合词频和文档频率的特征提取方法选定关键词，进而使用该关键词规则对上述邮件数据集进行邮件过滤从而得到关键词规则在垃圾邮件和正常邮件的触发情况，并且使用此触发情况作为神经网络算法的输入，通过随机下降方法训练神经网络直到过滤效果收敛，将训练得到的权重转化为规则的分数，最终得到的规则即可应用于基于规则的邮件过滤的解决方案中；其具体包括以下步骤：

1)通过邮件筛选、邮件解析、中文分词对邮件数据集进行预处理得到关键词候选词集合；

2)对候选词集合的全部词汇统计词频、文档频率，通过先比较词频后比较文档频率的特征提取从候选词集合中选出关键词；

3)收集邮件数据集中每封邮件的关键词触发情况，并格式化触发情况数据；

4)根据上述关键词触发情况通过神经网络算法对关键词规则赋分值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学;赛尔网络有限公司，未经华南理工大学;赛尔网络有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810521174.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于物联网的电子信息的发布方法
下一篇：一种互联网的浏览器数据的分享方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种垃圾邮件过滤的中文关键词规则生成方法在审

专利文献下载