[发明专利]一种无埋点数据采集方法、装置及存储介质有效
| 申请号: | 201911337431.6 | 申请日: | 2019-12-23 |
| 公开(公告)号: | CN111131072B | 公开(公告)日: | 2023-08-22 |
| 发明(设计)人: | 王芃;魏强;朱玉亭;刘松溪 | 申请(专利权)人: | 北京浩瀚深度信息技术股份有限公司 |
| 主分类号: | H04L47/2483 | 分类号: | H04L47/2483;H04L69/22 |
| 代理公司: | 北京沁优知识产权代理有限公司 11684 | 代理人: | 郭峰 |
| 地址: | 100000 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 无埋点 数据 采集 方法 装置 存储 介质 | ||
本发明提供了一种无埋点数据采集方法,所述步骤包括:流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。此外,本发明还提供了一种无埋点数据采集装置、设备、存储介质,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。
技术领域
本发明涉及计算机技术领域,具体的,涉及一种无埋点数据采集方法、装置以及存储介质。
背景技术
面对海量资讯世界,在越来越多的数据和信息可以从互联网上获得时,对大量数据的采集、分析和深度挖掘同时还可能产生巨大的商机。电商企业、旅游、互联网金融、企业服务的等行业纷纷搭建数据指标体系,构建可以落地精细化运营、指导业务增长的用户画像,对数据规模性、丰富性、准确性、即时性等多方面提出了更多的要求。目前普遍使用数据埋点、网络爬虫等方式完成数据采集。
埋点数据采集具有代码工作量大、实施繁杂,发布后生效时间跨度大,数据时延大,埋点量大导致客户端崩溃等缺点。现阶段无埋点的技术依赖网站或者APP终端技术开发的严谨性与规范性、网络状态、网络口径等因素,并且无法深入到更细、更深的粒度,例如在电商行业中,用户点击“购物车”是一次交互行为,无埋点会忽略用户信息、商品品类等维度信息,若网站设置反爬虫机制,那么基于网络爬虫原理的数据采集的方法将不可用。另外,以上方法无法获的网络服务性能方面的数据,无法感知网络延迟带来的用户体验等问题。
因此,本领域亟需一种无埋点数据采集方法,以解决上述技术问题。
实用新型内容
有鉴于此,本发明的目的在于提供一种无埋点数据采集方法、设备以及存储介质,以解决背景技术中所述的至少一个技术问题。
具体的,本发明的第一方面,提供了一种无埋点数据采集方法,其步骤包括:
流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;
流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;
流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。
采用上述技术方案,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。
优选地,所述流量预处理步骤中,还包括步骤,对数据流进行复制,获得第一数据流、第二数据流。
采用上述方案,通过对数据流进行复制,保证了原始数据流不会被后续的操作步骤所影响,改善用户的使用体验。
优选地,采用分光器对数据流进行复制,所述第一数据流与第二数据流中的数据相同。
优选地,所述流量预处理步骤中,还包括步骤,对第三数据流的进行解封装处理,获得第三数据流的标记特征。
优选地,所述流量预处理步骤中,还包括步骤,创建流表,所述流表包括第三数据流的标签信息。
优选地,所述标签信息包括标记特征。
采用上述技术方案,可以通过数据流的标记特征更快速的分辨数据来源,提高了数据采集效率。
优选地,所述标记特征包括五元组特征。
优选地,标签信息包括第三数据流的状态特征。
优选地,所述第三数据流的状态特征包括留存阈值,判断同类第三数据流的再次出现时间是否超过留存阈值,若超过,则将流表中将该第三数据流标签信息删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京浩瀚深度信息技术股份有限公司,未经北京浩瀚深度信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911337431.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





