[发明专利]一种垃圾邮件检测的方法和设备有效
申请号: | 201410312489.6 | 申请日: | 2014-07-02 |
公开(公告)号: | CN104038391B | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 林洋港;潘照明;周森 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/58 |
代理公司: | 北京信远达知识产权代理事务所(普通合伙)11304 | 代理人: | 赵百令,刘大玲 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾邮件 检测 方法 设备 | ||
技术领域
本发明的实施方式涉及网络信息处理技术,更具体地,本发明的实施方式涉及一种垃圾邮件检测的方法和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,网络邮箱已经成为人们日常工作、生活中必不可少的沟通工具。虽然网络邮箱为用户的沟通提供了便捷,但网络邮箱中越来越多的垃圾邮件也给用户带来了烦恼。为了防止垃圾邮件的发送,现有的邮件反垃圾技术中,垃圾邮件检测的方式主要是基于垃圾邮件一般是大量具有相似内容的邮件,通过自动收集内容相似的邮件,如果彼此间具有相似内容的邮件数量较多,则将这些邮件识别为垃圾邮件。
然而,实际上彼此间具有相似内容且数量较多的邮件并非都是垃圾邮件。在用户发送的邮件中,邮件正文有时会被邮箱系统自动加入格式固定的一部分内容,这些内容可以被视为邮件的脚注内容,如邮箱服务商自身的系统版本声明或者超大附件列表等。由于邮件脚注是由邮箱系统自动添加的,往往大量来自同一邮箱系统的正常邮件会包含相同的脚注内容,此时,如果基于完整的邮件内容进行垃圾邮件检测,就会导致这些不属于垃圾邮件的正常邮件容易被误判为垃圾邮件。
因此,为了避免具有脚注内容的正常邮件被误判为垃圾邮件,在对某一邮件进行垃圾邮件识别时,就需要先识别出该邮件中的脚注内容,再基于该邮件中去除邮件脚注的剩余内容去对该邮件进行垃圾邮件检测。例如,一种现有的垃圾检测方式在于,考虑到邮箱系统自动添加的邮件脚注一般都具有专门用于标记脚注的脚注声明标签,通过对邮件正文进行解析查找用于标记脚注的脚注声明标签,并将脚注声明标签作用范围内的邮件内容识别为邮件脚注,以便基于邮件中去除邮件脚注的剩余内容对邮件进行垃圾邮件检测。
发明内容
但是,由于现有技术中仅仅是将脚注声明标签作用范围的内容识别为邮件脚注,而识别出的邮件脚注在垃圾邮件检测时又会被去除,因此,一旦垃圾邮件的发送者将垃圾内容放置于脚注声明标签作用范围内,就可以使得垃圾内容被识别为邮件脚注,而伪装成邮件脚注的垃圾内容就可以避开垃圾邮件检测,使得垃圾内容无法被检测出来,最终导致无法防止垃圾邮件的发送。
因此在现有技术中,对于脚注声明标签作用范围内的内容,由于无法区分究竟是邮箱系统自动添加的真脚注还是由垃圾内容伪装的伪脚注,使得垃圾内容会被识别成邮件脚注而避开垃圾邮件检测,这是非常令人烦恼的过程。
为此,非常需要一种改进的垃圾邮件检测的方法和设备,以使脚注声明标签作用范围内的真脚注与伪脚注能够被区分,从而避免作为伪脚注的垃圾内容避开垃圾邮件检测。
在本上下文中,本发明的实施方式期望提供一种垃圾邮件检测的方法和设备。
在本发明实施方式的第一方面中,提供了一种垃圾邮件检测的方法,包括:响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注;提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的;响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
在本发明实施方式的第二方面中,提供了一种垃圾邮件检测的设备,包括:脚注标签解析模块,用于响应于接收待测邮件,从所述待测邮件中解析脚注声明标签;待验证脚注确定模块,用于将所述脚注声明标签作用范围内的内容确定为待验证脚注;属性提取模块,用于提取所述待验证脚注的属性特征;脚注真伪检测模块,用于依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的;第一邮件检测模块,用于响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;第二邮件检测模块,用于响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410312489.6/2.html,转载请声明来源钻瓜专利网。