[发明专利]一种流量记录的合并方法和合并系统有效
申请号: | 201410028727.0 | 申请日: | 2014-01-21 |
公开(公告)号: | CN103763320B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 王蓉;王志军 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 栗若木,白莹 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 流量 记录 合并 方法 系统 | ||
技术领域
本发明涉及流量记录合并领域,尤其涉及一种流量记录的合并方法和合并系统。
背景技术
互联网中流量记录是根据一次次单独的会话生成的,比如由一个用户的一次HTTP请求和响应生成一次流量记录;或者由一个用户的一次流媒体会话生成一次流量记录,如果流媒体会话时间较长,受到设备内层的限制,通常会由几条流量记录表示此次流媒体会话。由此可见,互联网中存储的流量记录不仅数据量大而且杂乱。
为了便于对流量记录进行分析,降低存储的难度,需要对互联网中的流量记录进行同类合并。
现有的流量记录合并的方式,主要包括以下几种方式:
1、根据流量记录中包含的某个相同参数,如协议类型、IP地址(或地址段)、用户名标识、URL等,进行合并;
2、将统一用户在时间上接续的几条记录进行合并
上述流量记录合并方式存在以下缺陷:
以流量记录中的单一参数作为合并依据,合并的数据准确度不高,且可操作性差,这是因为实际的网页上有很多元素,这些元素可能来自不同的域名和统一资源定位符(URL),因此,访问相同网站或应用生成的多个流量记录之间记录的IP、URL或域名等字段都不一致;
另外,用户在上网时,常常会在时间上交错地打开多个网站,还有可能在网页浏览的时候打开音乐客户端、软件自动更新程序等,因此如果以时间先后顺序合并流量记录,难以保证合并的流量记录属于相同的网站或应用。
发明内容
本发明提供了一种流量记录的合并方法和合并系统,以解决如何简便、准确地将网络中归属相同网站或应用的流量记录进行合并的技术问题。
为解决上述技术问题,本发明提供了一种流量记录合并方法,所述方法包括:
从网络产生的流量记录中选取部分流量记录进行识别,确定其归属网站或应用;
将待识别的流量记录与识别出的流量记录进行网络协议、IP地址和URL的相关度判断;
将相关度高的待识别流量记录归属为所述网站或应用;
将归属为所述网站或应用的多条流量记录进行合并。
进一步地,将待识别的流量记录与识别出的流量记录进行网络协议、IP地址和URL的相关度判断,包括:
根据识别出的流量记录获取归属所述识别出网站或应用的流量记录的一般特征;
将待识别的流量记录与所述一般特征进行网络协议、IP地址和URL的相关度判断。
进一步地,所述根据识别出的流量记录获取归属所述识别出网站或应用的流量记录的一般特征,包括:
根据网络协议、IP地址和URL找到的与识别出的流量记录相关度高的流量记录;
从多个找到的流量记录中挑选出两两相比具有同样高相关度的流量记录;
将识别出的流量记录和挑选出的流量记录具备的共同特征作为归属所述识别出网站或应用的流量记录的一般特征。
进一步地,所述方法还包括:
在从多个找到的流量记录中挑选出两两相比具有同样高相关度的流量记录后,计算挑选出的流量记录的先验概率,继续从中挑选出先验概率大于1/2的流量记录,将识别出的流量记录和挑选出的流量记录具备的共同特征作为归属所述识别出网站或应用的流量记录的一般特征。
进一步地,所述方法还包括:
当识别出多个归属不同网站或应用的流量记录时,若通过先验概率判断出待识别流量记录可归属识别出的网站或应用不只一个,将所述待识别流量记录获得最大先验概率对应的识别出的网站或应用作为该待识别流量记录的归属网站或应用。
为解决上述技术问题,本发明还提供了一种流量记录合并系统,所述系统包括参考流量记录获取模块,流量记录识别模块和流量记录合并模块,其中,
所述参考流量记录获取模块,用于从网络产生的流量记录中选取部分流量记录进行识别,确定其归属网站或应用,将识别出的流量记录发送至流量记录识别模块;
所述流量记录识别模块,用于将待识别的流量记录与识别出的流量记录进行网络协议、IP地址和URL的相关度判断;将相关度高的待识别流量记录归属为所述网站或应用,将归属相同网站或应用的流量记录发送至流量记录合并模块;
所述流量记录合并模块,用于将归属相同网站或应用的多条流量记录进行合并。
进一步地,所述流量记录识别模块,用于将待识别的流量记录与识别出的流量记录进行网络协议、IP地址和URL的相关度判断,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410028727.0/2.html,转载请声明来源钻瓜专利网。