[发明专利]基于mbx格式的邮件正文的获取方法及系统有效
申请号: | 201310521274.0 | 申请日: | 2013-10-28 |
公开(公告)号: | CN103559244A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 吴子章;刘申 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mbx 格式 邮件 正文 获取 方法 系统 | ||
技术领域
本发明涉及计算机数据通信技术领域,更为具体地,涉及一种基于mbx格式的邮件正文的获取方法及系统。
背景技术
随着社会的进步和技术的发展,电子邮件已经成为人们工作中主要的通信手段。如今互联网上对于邮件正文的获取与过滤,扮演着防止数据泄露与拦截垃圾邮件等重要角色,越来越受到网络管理者的关注与重视,对于海量的mbx格式邮件正文的提取,直接为不同操作系统的防止数据泄露与垃圾邮件过滤等提供重要的原材料,在整个网络防护系统中起到提取关键信息的预处理作用,同时其性能直接影响到整个防护系统乃至整个网络拓扑的吞吐量。
在当前邮件正文的提取方法中,mbx格式的邮件因存储多封邮件,处理起来会消耗很多时间,当防火墙或网上的服务器需要处理大量mbx格式的邮件数据库时,获取邮件正文的时间消耗会与邮件大小成正比例增加,在获取邮件正文的过程中,需要对邮件的头部特征进行搜索与定位,而传统的特征搜索算法无论是多模还是单模,都需要对邮件内容进行反复地遍历,以致消耗很多的时间;同时,频繁地访问磁盘也对系统的性能带来极大的损耗,延长了海量mbx格式邮件正文提取的时间。
发明内容
鉴于上述问题,本发明的目的是提供一种基于mbx格式的邮件正文的获取方法及系统,以解决在提取mbx格式邮件正文的过程中,频繁访问磁盘造成系统性能损耗的问题,提高提取mbx格式邮件正文的效率。
本发明提供一种基于mbx格式的邮件正文的获取方法,包括:
将mbx格式的邮件批量映射到内存;将批量映射到内存的mbx格式的邮件的首行转换成模式串,并将模式串的前六个字节作为模式子串,在批量映射到内存的mbx格式的邮件除首行之外的其余行的首部位置添加标志;
将每行标志后的六个字节形成数据块映射到缓存上,然后对数据块进行分组,筛选出每组数据块中的模式子串,并记录模式子串的位置;并且,通过查找每行首部位置的标志确定并记录空行的位置;
通过匹配空行的位置和模式子串的位置确定邮件正文的位置;
根据所确定的邮件正文的位置获取邮件正文。
本发明还提供一种基于mbx格式的邮件正文的获取系统,包括:
邮件映射单元,用于将mbx格式的邮件批量映射到内存;
模式串转换单元,用于将批量映射到内存的mbx格式的邮件的首行转换成模式串;
模式子串生成单元,用于将模式串的前六个字节作为模式子串;
标志添加单元,用于在批量映射到内存的mbx格式的邮件除首行之外的其余行的首部位置添加标志;
数据块映射单元,用于将每行标志后的六个字节形成数据块映射到缓存上;
数据块分组单元,用于对映射到缓存上的数据块进行分组;
模式子串筛选单元,用于筛选出每组数据块中的模式子串;
模式子串记录单元,用于记录筛选出的模式子串的位置;
空行位置确定单元,用于通过查找标志确定空行的位置;
空行位置记录单元,用于记录确定出的空行的位置;
邮件正文确定单元,用于通过匹配空行的位置和模式子串的位置确定邮件正文的位置;
邮件正文获取单元,用于根据所确定的邮件正文的位置获取邮件正文。
利用上述根据本发明提供的基于mbx格式的邮件正文的获取方法及系统,通过批量地将邮件数据映射到内存,来减少频繁访问磁盘带来的损耗,通过跨行匹配、与在缓存上进行的跨数据块匹配,极大地降低复杂模式串的匹配几率,根据mbx格式特征实时地调节数据块尺度,从而提升模式子串预匹配的性能,而且本发明采用的分段hash映射方法,第一段的hash查询与第二段的精确过滤相结合,将冲突发生的概率降到百万分之一,由于模式匹配过程的性能提升,带来整体邮件正文提取性能的提升。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为mbx格式邮件的结构图;
图2为根据本发明的基于mbx格式的邮件正文的获取方法的流程图;
图3为根据本发明实施例的基于mbx格式的邮件正文的获取方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310521274.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据业务处理方法及装置
- 下一篇:一种可移动法兰端面加工机械