[发明专利]一种网络流量内容提取和分析检索方法有效
| 申请号: | 201310139368.1 | 申请日: | 2013-04-18 |
| 公开(公告)号: | CN103281213A | 公开(公告)日: | 2013-09-04 |
| 发明(设计)人: | 陶敬;韩婷;管晓宏;黄旭昌;王智;折波 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/06;G06F17/30 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络流量 内容 提取 分析 检索 方法 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种对网络流量进行内容分析和关键信息检索标注的方法。
背景技术
随着互联网技术的发展,网络信息安全成为业界关注的重点。一方面,大至国家网络安全监管部门,小至家庭和个人,都需要维护网络系统的稳定,监控网络信息,防止非法或不安全的信息传播;另一方面,基于内容分析或过滤的网络设备和网络安全产品也急需要更有效更全面的测试才能投入使用。目前面临的问题主要有两方面:首先,网络中传输的数据非常复杂,信息量更是爆炸性增长,底层数据包中的二进制数据流难以被理解分析;其次,随着网络使用需求的提高,网络带宽一再升级,高速大规模网络环境下的流量分析处理面临严峻的挑战。
网络流量还原对于监控网络信息、防止非法或不安全的信息传播具有重要意义。一种现有的网络流量还原方法如图1所示,它虽然实现了对流量的分析和还原,但是存在不足:首先,还原数据范围太广,信息量大,对于用户所关注的关键信息不能有效检索;其次,对原始数据的完整性要求很高,一个会话中若丢失任何一个数据包,该会话将不能还原出应用层文件,所以实际使用中不能充分还原流量中的信息;另外,对流量数据作一次处理还原后,只能得到网页文件、音/视频文件、文档文件、二进制文件等常规类型应用层文件,后续的应用只能基于大量的应用层文件提取信息,作为监控的规则数据,对流量的解析信息不能充分利用。
发明内容
针对现有技术的不足,本发明提出一种网络流量内容提取和分析检索方法,旨在实现对复杂原始网络流量的分析,根据需求对指定的流量内容进行解析并实现对指定关键信息的检索标注。
本发明的技术方案为:
1、一种网络流量内容提取和分析检索方法,用于在对原始网络流量进行内容提取和关键信息的分析检索,包括以下步骤:
第一步,采用流量分流模块,处理从高速网络中捕获并存储的流量文件中的原始数据包,根据服务器计算核心数目设置相应的数据处理队列数目n,将原始流量分流到n个数据处理队列分别处理;
第二步,每个数据处理队列独立处理该队列的原始数据报文,利用协议识别过滤模块对报文进行协议识别和过滤,采用TCP会话重组模块对其中的TCP流量进行会话重组,并维护每个会话的状态信息;
第三步,采用内容解析提取模块对重组后的TCP会话进行协议解析和解码,并提取出其中结构化的数据信息;
第四步,采用检索标注模块,对于需求指定的关键信息基于多模式匹配算法或者搜索引擎技术,在内容解析提取模块提取到的数据内容中进行检索标注,并将标记结果提交至检索标注信息数据库,从而为多种方式的应用提供检索标注结果。
本发明可以取得以下有益的技术效果:
1、能够根据用户关注的关键信息,进行协议识别和过滤,解析指定的某些协议流量;
2、解决TCP会话重组中的数据包重复和序列号归零等问题;
3、采用检索标注信息的方法实现对原始流量的特征标定,便于用户获取有效信息。
附图说明
图1是现有网络流量还原方法的流程图;
图2是本发明的总体框架示意图;
图3是图2中TCP会话重组模块流程图;
图4是图2中以HTTP协议为例的内容解析提取模块流程图;
图5是图2中基于模式匹配算法实现的检索标注模块流程图;
图6是图2中基于搜索引擎技术实现的检索标注模块流程图。
具体实施方式
以下结合附图对本发明的技术方案进行详细说明。
如图2所示,本发明提出的网络流量内容提取和分析检索方法,用于在对原始网络流量进行内容提取和关键信息的分析检索,包括以下步骤:
第一步,采用流量分流模块,处理从高速网络中捕获并存储的流量文件中的原始数据包,根据服务器计算核心数目设置相应的数据处理队列数目n,对数据报文的三元组做哈希运算,将原始流量分流到n个数据处理队列分别处理。其中,三元组包括数据报文的源IP地址(SIP)和目的IP地址(DIP)及IP报文协议号。
第二步,每个数据处理队列独立处理该队列的原始数据报文,利用协议识别过滤模块对报文进行协议识别和过滤,采用TCP会话重组模块对其中的TCP流量进行会话重组,并维护每个会话的状态信息。
第三步,采用内容解析提取模块对重组后的TCP会话进行协议解析,解码(包括传输编码和压缩编码,并提取出其中结构化的数据信息(如文本,图片,音频等)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310139368.1/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





