[发明专利]一种垃圾电子邮件意图识别系统有效
申请号: | 201410187923.2 | 申请日: | 2014-05-06 |
公开(公告)号: | CN103944810B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 李绍滋;郭锋;曹冬林 | 申请(专利权)人: | 厦门大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06 |
代理公司: | 厦门市首创君合专利事务所有限公司35204 | 代理人: | 张松亭 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾 电子邮件 意图 识别 系统 | ||
技术领域
本发明涉及反垃圾邮件技术,特别涉及一种垃圾电子邮件意图识别系统。
背景技术
电子邮件作为当今互联网应用最广泛的服务之一,其方便、快捷和经济等特点,得到了无数商务人士的青睐。人们用它来办公,娱乐等等,邮件逐渐成为日常生活中不可缺少的通信工具。但随着信息化的发展,由于互联网的开放性与传播性,垃圾邮件的泛滥也成为用户尤其是企业机构不可忽视的巨大威胁。垃圾邮件中的某些消息具有很强的循环性和攻击性。垃圾电子邮件正开始逐步的减弱电子邮件的可靠性。对于个人用户和企业用户来说,垃圾邮件收发浪费了大量的网络带宽,区分垃圾邮件和正常邮件也浪费了用户的大量时间,尤其对企业机构来说,垃圾邮件已造成了极大的经济效益损失。
大部分垃圾邮件背后的动机是使邮件接收者接受某物,例如登陆某个站点,拨打某个电话,或者购买某支股票。这些动机被称为该邮件的“意图”,而对邮件的这些特点的观察和分析称为“意图分析”。邮件的意图是一种不同于传统技术中所指的内容或行为的全新特征,它具有稳定性、不可伪装性和必要性。
现有的垃圾邮件意图分析方案,通常需要点击进入邮件中的URL超链接地址所指向的网站,并分析该网站的内容。该方案效率低下,且所抽取的意图类型单一,同时,许多垃圾邮件通常采用混淆手段(如在邮件中加入随机噪声)来避免被识别,而该方案并不能处理这种问题。
发明内容
本发明的目的在于克服现有技术之不足,提供一种垃圾电子邮件意图识别系统,通过抽取电子邮件的显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称等多种类型的意图,并在预先创建的意图库中对断,从而能够判断出当前电子邮件是否为垃圾邮件,而所述意图库可通过所述意图判断及意图库维护单元实现更新和维护。
本发明解决其技术问题所采用的技术方案为:一种垃圾电子邮件意图识别系统,包括意图抽取单元、意图判断及意图库维护单元,和由所述意图判断及意图库维护单元创建的意图库;
所述意图抽取单元接收来自上级单元的电子邮件全文和包括意图分析命令或反馈学习命令的操作指令;若所述操作指令为意图分析命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并将该意图串连同该操作指令一起传送给所述意图判断及意图库维护单元,之后接收来自意图判断及意图库维护单元的邮件属性判断结果,并将该判断结果反馈给上级单元;若所述操作指令为反馈学习命令,则所述意图抽取单元抽取该电子邮件中指定类型的意图、形成意图串,并抽取该电子邮件中预先标记的邮件属性,之后将该意图串、该邮件属性连同该操作指令一起传送给所述意图判断及意图库维护单元;
所述意图判断及意图库维护单元接收来自意图抽取单元的意图串和意图分析命令,或意图串、邮件属性和反馈学习命令;若所述意图判断及意图库维护单元接收到意图分析命令,则通过对接收到的意图串中的所有意图在所述意图库中进行查询而分析判断出邮件属性,并向所述意图抽取单元反馈邮件属性判断结果;若所述意图判断及意图库维护单元接收到反馈学习命令,则基于接收到的意图串和邮件属性进行反馈学习并更新意图库;
所述意图判断及意图库维护单元还包括在预置的时间间隔内自动维护意图库;
所述指定类型的意图包括显式URL地址、隐式URL地址、显示邮箱地址、隐式邮箱地址、QQ号码、银行账号、信用卡号、电话号码和公司名称;
所述邮件属性包括垃圾邮件、正常邮件和未知邮件三种属性。
作为一种优选,所述意图库中存有意图文件,每个意图文件包括意图内容、意图种类、总频数、ham频数、spam频数、总文档数、ham文档数、spam文档数、生命值、ham%、spam%和特征向量;所述总频数为对应的意图内容在所述意图识别系统之前处理过的所有邮件中出现的次数,所述ham频数为对应的意图内容在所述意图识别系统之前处理过的正常邮件中出现的次数,所述spam频数为对应的意图内容在所述意图识别系统之前处理过的垃圾邮件中出现的次数,所述总文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的邮件数,所述ham文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的正常邮件数,所述spam文档数为所述意图识别系统之前处理过的所有邮件中存在对应的意图内容的垃圾邮件数,所述ham%为ham频数/总频数,所述spam%为spam频数/总频数,所述特征向量用于区分各个意图文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410187923.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轴向径向电励磁磁轴承
- 下一篇:一种轴承对及轴承对组件