[发明专利]一种基于短文本的垃圾邮件过滤方法及装置有效
申请号: | 201310393771.7 | 申请日: | 2013-09-03 |
公开(公告)号: | CN103441924A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 林延中;潘庆峰 | 申请(专利权)人: | 盈世信息科技(北京)有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F17/27 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 颜希文 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 垃圾邮件 过滤 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于短文本的垃圾邮件过滤方法及基于短文本的垃圾邮件过滤装置。
背景技术
随着互联网的广泛应用,电子邮件以其快速、简单、廉价的优点受到人们的青睐,成为一种高效的大众传播媒介。与此同时,大量无用邮件涌入人们的邮箱,给他们的学习和生活带来灾难。垃圾邮件是用户最讨厌的,他们浪费了用户的时间、金钱及网络带宽,同时,弄乱用户的邮箱,有些邮件甚至是有害的,如包含色情内容或病毒等。据有关研究报告,全世界电子邮件中每天有超过10%都是垃圾邮件。因此,研发一种有效拦截过滤垃圾有效的方法是很有必要的。
目前,已有不少方法可以对垃圾邮件进行过滤。如中国专利申请CN201010179995.4,发明名称为“一种基于N-Gram分词模型的反向神经网络基于短文本的垃圾邮件过滤装置”,此专利使用N-Gram分词模型对邮件样本进行分词,并使用TF-IDF算法对分词进行权重排序,然后使用zipf法则提取最重要的特征分词列表(没有被挑中的特征分词则被丢弃)。然后通过文本中是否包含这些“重要特征分词”构造出文档的特征向量,并以此特征向量进行神经网络的学习和分类。然而,对于正文内容很短的短文本信息,使用zipf法则来提取最重要的特征分词, 并丢弃不重要的特征分词之后,剩下的信息就更少了,如果直接使用这么少的信息进行文本分类,最终的结果甚至可能是错误的,严重情况下甚至会将正常邮件归类成垃圾邮件,导致用户没有读到或者没有及时读到这封邮件。另外,当前大量的垃圾邮件常常使用html方式进行包装,并通过添加大量不可见或者不同大小的字体,来干扰文本分类的效果,因此,此专利不适用于正文内容很短的垃圾邮件的过滤。
发明内容
本发明所要解决的技术问题在于,提供一种基于短文本的垃圾邮件过滤方法及装置,可结合分词处理、TF-IDF技术及BKDR哈希函数,对电子邮件进行噪音去除,关键信息放大,以及相似文本信息聚类,最终实现对邮件进行分类。
为了解决上述技术问题,本发明提供了一种基于短文本的垃圾邮件过滤方法,包括:a、对电子邮件中的文本进行分词处理并获得分词结果;b、使用TF-IDF技术对所述分词结果进行排序处理获得分词列表;c、根据所述分词结果计算电子邮件的邮件指纹;d、根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;e、根据所述聚类结果过滤垃圾电子邮件。
作为上述方案的改进,步骤a包括:a1、对文本进行预处理并抽取出中文文本和/或英文文本;a2、分别对所述中文文本和英文文本进行分词处理,并获得分词结果。
作为上述方案的改进,步骤c包括:c1、构建特征数组;c2、提取任一预设参数;c3、根据当前提取的预设参数,使用BKDR哈希函数计算所述分词列表中各分词结果的哈希值;c4、分别对所述哈希值进行取模处理获得模值;c5、根据所述模值更新所述特征数组;c6、判断当前已经处理的哈希值个数是否少于预设值,判断为是时,提取一个与已使用的预设参数相异的其它预设参数,并返回执行步骤c3,判断为否时,根据哈希值个数及特征数组长度计算阀值,并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。
作为上述方案的改进,步骤d包括:d1、根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度;d 2、根据所述相似度对电子邮件进行聚类处理并获得聚类结果。
相应地,本发明还提供了一种基于短文本的垃圾邮件过滤装置,包括:分词模块,用于对电子邮件中的文本进行分词处理并获得分词结果;排序模块,用于使用TF-IDF技术对所述分词结果进行排序处理获得分词列表;邮件指纹模块,用于根据所述分词结果计算电子邮件的邮件指纹;类聚模块,用于根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果;过滤模块,用于根据所述聚类结果过滤垃圾电子邮件。
作为上述方案的改进,所述分词模块包括:预处理单元,用于对文本进行预处理并抽取出中文文本和/或英文文本;分词单元,用于分别对所述中文文本和英文文本进行分词处理,并获得分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盈世信息科技(北京)有限公司,未经盈世信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310393771.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体器件和半导体器件的制造方法
- 下一篇:用于大功率柴油机的尾气净化系统