[发明专利]垃圾邮件的识别方法及装置有效
申请号: | 201710502422.2 | 申请日: | 2017-06-27 |
公开(公告)号: | CN107171944B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 黄福昌;王海斌;李宁宁;李玉杰;贾小华;金永刚 | 申请(专利权)人: | 北京二六三企业通信有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 100013 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件 识别 方法 装置 | ||
本发明提供一种垃圾邮件的识别方法及装置。该垃圾邮件的识别方法,包括:接收邮件并对邮件进行解析,以获取邮件的IP地址和邮件内容,其中邮件内容包括主题、正文和附件;通过预设校验算法,对邮件内容进行计算,得到邮件的校验码;判断邮件的校验码是否存在于垃圾邮件样本中,其中,垃圾邮件样本中存储有不同的垃圾邮件对应的校验码;若邮件的校验码存在于垃圾邮件样本中,则识别邮件为垃圾邮件。本发明提供的方法及装置能够基于垃圾邮件的行为特征对邮件进行识别,以提高垃圾邮件的识别率。
技术领域
本发明涉及垃圾邮件识别技术,尤其涉及一种垃圾邮件的识别方法及装置。
背景技术
随着互联网的广泛普及,邮件已经成为常用的通信工具之一,但用户常会收到各种垃圾邮件,严重影响用户对正常邮件的查收和处理。因此,识别垃圾邮件越来越重要。
目前基于概率统计的贝叶斯识别技术为常用的识别垃圾邮件技术,该技术会收集大量的正常邮件样本和垃圾邮件样本,把正常邮件样本和垃圾邮件样本的内容进行分词,统计各个分词在正常邮件样本和垃圾邮件样本的次数。
然而,基于概率统计的贝叶斯识别技术对于不适合分词的垃圾信息(如图片等)识别的效果不佳,现亟需一种识别准确率较高的识别垃圾邮件技术。
发明内容
本发明提供一种垃圾邮件的识别方法及装置,以解决现有的基于概率统计的贝叶斯识别技术识别准确率较低的问题。
本发明提供一种垃圾邮件的识别方法,包括:
接收邮件并对所述邮件进行解析,以获取所述邮件的IP地址和邮件内容,其中所述邮件内容包括主题、正文和附件;
通过预设校验算法,对所述邮件内容进行计算,得到所述邮件的校验码;
判断所述邮件的校验码是否存在于垃圾邮件样本中,其中,所述垃圾邮件样本中存储有不同的垃圾邮件对应的校验码;
若所述邮件的校验码存在于所述垃圾邮件样本中,则识别所述邮件为垃圾邮件。
可选地,若所述邮件的校验码不存在于所述垃圾邮件样本中,所述方法还包括:
针对已接收到的邮件的IP值和校验码,判断所述邮件的校验码所对应的IP地址的个数是否大于预设阀值,所述邮件的校验码所对应的IP地址包括与所述邮件的校验码相同的校验码所对应的已接收到的邮件的IP地址和所述邮件的IP地址;
若所述个数大于预设阈值,则识别所述邮件为垃圾邮件,并将所述邮件的校验码写入到所述垃圾邮件样本中;
若所述个数小于预设阈值,则识别所述邮件为正常邮件。
可选地,所述针对已接收到的邮件的校验码和IP值,判断所述邮件的校验码所对应的IP地址的个数是否大于预设阀值,包括:
判断临时缓存中是否存储有与所述邮件的校验码相同的校验码,所述临时缓存中存储有所述已接收到的邮件对应的不同的校验码和各所述校验码对应的IP地址集合;
若是,则将所述邮件的IP地址写入到与所述邮件的校验码相同的校验码对应的IP地址集合中,并判断所述相同的校验码所对应的IP地址的个数是否大于预设阀值;
若否,则将所述邮件的校验码和IP地址写入到所述临时缓存中。
可选地,所述方法还包括:
获取所述临时缓存中写入校验码的写入时刻距当前时刻的间隔时长;
判断所述间隔时长是否大于预设时长;
若是,则释放所述临时缓存。
可选地,所述预设校验算法包括MD5算法或SHA1算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京二六三企业通信有限公司,未经北京二六三企业通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710502422.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种培养皿涂布辅助装置
- 下一篇:一种高效微藻光反应装置