[发明专利]一种垃圾邮件过滤的中文关键词规则生成方法在审
申请号: | 201810521174.0 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108763449A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 张凌;张启华;张晶;徐傲雪;黄康泉 | 申请(专利权)人: | 华南理工大学;赛尔网络有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/08;H04L12/58 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件过滤 规则生成 特征提取 中文 神经网络算法 词频 关键词特征 规则触发 计算规则 垃圾邮件 通用词汇 遗传算法 用户群体 用户特征 邮件集中 邮件数据 候选词 时效性 改进 学习 | ||
1.一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:该方法通过对给定邮件数据集进行数据预处理获取该数据集中邮件的邮件头以及邮件体部分的所有词汇作为关键词候选词,通过结合词频和文档频率的特征提取方法选定关键词,进而使用该关键词规则对上述邮件数据集进行邮件过滤从而得到关键词规则在垃圾邮件和正常邮件的触发情况,并且使用此触发情况作为神经网络算法的输入,通过随机下降方法训练神经网络直到过滤效果收敛,将训练得到的权重转化为规则的分数,最终得到的规则即可应用于基于规则的邮件过滤的解决方案中;其具体包括以下步骤:
1)通过邮件筛选、邮件解析、中文分词对邮件数据集进行预处理得到关键词候选词集合;
2)对候选词集合的全部词汇统计词频、文档频率,通过先比较词频后比较文档频率的特征提取从候选词集合中选出关键词;
3)收集邮件数据集中每封邮件的关键词触发情况,并格式化触发情况数据;
4)根据上述关键词触发情况通过神经网络算法对关键词规则赋分值。
2.根据权利要求1所述的一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:在步骤1)中,所述邮件筛选是指剔除邮件数据集中的纯英文文件,所述邮件解析是实现基于RFC822和MIME协议对邮件内容进行解析分割出不同的部分选取邮件头和邮件体的部分,所述中文分词是利用中文分词工具对邮件头和邮件体的文本内容进行分词。
3.根据权利要求1所述的一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:在步骤2)中,结合词频与文档频率的方法做特征选取,确定关键词,包括以下步骤:
2.1)统计词频、文档频次,词频指一个词在文档中出现的次数,文档频率指出现某个候选词的文档个数;
2.2)选取垃圾邮件中词频最高的N个词;
2.3)按照公式spam(wi)/spam(wi)+ham(wi)>T%筛选出关键词,符合该公式的wi即为一个关键词,其中wi表示在词频最高的N个词集合中的某个词,spam(wi)表示包含词wi的垃圾邮件个数,ham(wi)表示包含词wi的正常邮件个数,T%表示某个设置的阈值。
4.根据权利要求1所述的一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:在步骤3)中,利用开源工具SpamAssassin收集邮件数据集中每封邮件的关键词触发情况,并格式化触发情况数据,包括以下步骤:
3.1)禁用SpamAssassin内置的所有规则,停用贝叶斯算法,消除其它规则的影响,添加步骤2)中生成的关键词规则;
3.2)使用SpamAssassin提供的mass-check脚本将训练集中的每份邮件调用SpamAssassin进行过滤,然后在日记中记录下每封邮件所触发的所有规则;
3.3)对日记文件进行二次处理,将处理结构结构化。
5.根据权利要求1所述的一种垃圾邮件过滤的中文关键词规则生成方法,其特征在于:在步骤4)中,使用神经网络算法为步骤2)中生成的关键词规则赋分值,包括以下步骤:
4.1)首先将非垃圾邮件进行冗余复制,添加非垃圾邮件的数目的公式是1+(number_of_test_hit)*ham_preference,ham_preference为参数输入,默认为2.0,number_of_test_hit指该邮件触发了多少规则;
4.2)为每条规则随机分配在特定范围内的权重,范围由规则触发邮件数目的情况决定;
4.3)利用神经网络算法进行训练,迭代num_epochs次后停止,num_epochs指神经网络迭代的次数,在每一轮迭代指定weight_decay参数和bias参数,其中weight_decay参数是指一次迭代中权值衰减的速度,bias参数指偏差值用来平滑统计异常;
4.4)删除训练得到分值为0的规则,得到最终生成的规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;赛尔网络有限公司,未经华南理工大学;赛尔网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810521174.0/1.html,转载请声明来源钻瓜专利网。