[发明专利]一种数据流处理方法及装置有效
| 申请号: | 201110415509.9 | 申请日: | 2011-12-13 |
| 公开(公告)号: | CN102571922A | 公开(公告)日: | 2012-07-11 |
| 发明(设计)人: | 魏逢一 | 申请(专利权)人: | 北京星网锐捷网络技术有限公司 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
| 地址: | 100036 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据流 处理 方法 装置 | ||
技术领域
本发明涉及网络通信技术领域,尤其涉及一种数据流处理方法及装置。
背景技术
随着互联网的高速发展,互联网已经渗透到社会生活的每一个角落,成为人们学习、生活、工作不可缺少的工具,也为企业高效运营提供了基础平台。但是互联网给我们带来诸多便利的同时,也为各种不和谐的行为提供了滋生的温床,网络恶搞、诽谤中伤、传播违法反动信息等等,越来越对国家安定、社会和谐、企业效率提出了严峻的挑战。
为了解决上述问题,上网行为管理概念应运而生。上网行为管理是指帮助互联网用户控制和管理对互联网的使用,包括对网页访问过滤、网络应用控制、带宽流量管理、信息收发审计、用户行为分析,从而实现对互联网访问行为的全面管理。在P2P流量管理、防止内网泄密、防范法规风险、互联网访问行为记录、上网安全等多个方面提供有效的解决方案。
其中,论坛作为信息获取以及言论发表的一个重要工具,在上网行为管理中显得尤为重要。论坛的发帖审计已经成为上网行为管理所不可或缺的重要功能之一。
目前主流论坛提交数据(发帖)都是通过HTTP-POST协议,其中POST(超文本传输协议(HTTP,Hypertext Transfer Protocol)请求方法中的一种)对应的统一资源定位符(URL,Uniform Resource Locator)标志论坛数据提交至的网址,而HTTP报文头部Referer字段则表明了论坛数据发布的网址。主流论坛数据标题和内容的数据封装格式主要包括如下两种:HTML上传表单和URL编码。
而不管是哪种数据封装格式,由于提交的数据是通过网络提交到服务器的,因此在网关或上网行为管理设备中就可以截获到提交的报文,通过对报文格式进行窥探、分析,就可以提取论坛数据中的标题以及内容等信息,从而达到论坛发帖审计的目的。
例如,根据RFC2616,POST报文的URL语法格式可以如下所示:
HTTP_URL:=″http:″″//″host[:port][abs_path[″?″query]]
则可以根据上述语法格式确定该POST报文对应的信息:其中http代表HTTP协议,host[:port]为HTTP请求报文首部HOST域的值(即资源站点的地址,可以是域名,也可以是IP),如果port为空,则代表port为80。abs_path[″?″query]即资源的统一资源标识符(URI,Uniform Resource Identifier)。
目前的论坛发帖审计主要包括以下两种方式:
方式一、POST全部审计。
此种方式下,将流经网关或上网行为管理设备的所有HTTP-POST数据都拿来分析、审计。该方式实现简单,但由于在实际网络中,除了论坛,还有其他很多应用也是通过HTTP-POST来提交数据的,因此将导致审计信息中充斥着大量非论坛数据,增大了审计的工作量,且降低了论坛发帖审计的效率。
方式二、POST部分审计。
在此种方式下,可以仅针对URL中含有“bbs”的HTTP-POST数据进行审计,即仅将URL中含有“bbs”的HTTP-POST数据认为是论坛提交数据。但由于很多URL中未含有“bbs”的HTTP-POST数据也是论坛提交数据,因此,在此种方式下,非常容易存在漏审计的问题,使得审计结果准确性较低。
同时,不论是方式一还是方式二,都是通过人工分析HTTP-POST数据的方法收集特征字段,从而在对HTTP-POST数据进行审计时,根据人工收集的特征字段提取对应的信息,而人工收集特征字段的收集效率低下,且容易遗漏,从而导致审计结果准确性较低。
发明内容
本发明实施例提供一种数据流处理方法及装置,用于解决论坛发帖审计效率低和审计结果准确性较低的问题。
一种数据流处理方法,所述方法包括:
接收数据流,在确定该数据流符合HTTP-POST协议时,提取该数据流对应的网址;
在确定该数据流对应的网址属于预先确定出的网址集合时,确定该数据流对应的待提取的特征字段;
针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,该字段名集合是预先针对该待提取的特征字段,通过抓包分析工具,解析出的已知论坛数据对应的字段名集合;
若确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名,提取该字段名对应的字段值。
一种数据流处理装置,所述装置包括:
接收模块,用于接收数据流;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京星网锐捷网络技术有限公司,未经北京星网锐捷网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110415509.9/2.html,转载请声明来源钻瓜专利网。





