[发明专利]一种无埋点数据采集方法、装置及存储介质有效

专利信息
申请号: 201911337431.6 申请日: 2019-12-23
公开(公告)号: CN111131072B 公开(公告)日: 2023-08-22
发明(设计)人: 王芃;魏强;朱玉亭;刘松溪 申请(专利权)人: 北京浩瀚深度信息技术股份有限公司
主分类号: H04L47/2483 分类号: H04L47/2483;H04L69/22
代理公司: 北京沁优知识产权代理有限公司 11684 代理人: 郭峰
地址: 100000 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 无埋点 数据 采集 方法 装置 存储 介质
【说明书】:

发明提供了一种无埋点数据采集方法,所述步骤包括:流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。此外,本发明还提供了一种无埋点数据采集装置、设备、存储介质,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。

技术领域

本发明涉及计算机技术领域,具体的,涉及一种无埋点数据采集方法、装置以及存储介质。

背景技术

面对海量资讯世界,在越来越多的数据和信息可以从互联网上获得时,对大量数据的采集、分析和深度挖掘同时还可能产生巨大的商机。电商企业、旅游、互联网金融、企业服务的等行业纷纷搭建数据指标体系,构建可以落地精细化运营、指导业务增长的用户画像,对数据规模性、丰富性、准确性、即时性等多方面提出了更多的要求。目前普遍使用数据埋点、网络爬虫等方式完成数据采集。

埋点数据采集具有代码工作量大、实施繁杂,发布后生效时间跨度大,数据时延大,埋点量大导致客户端崩溃等缺点。现阶段无埋点的技术依赖网站或者APP终端技术开发的严谨性与规范性、网络状态、网络口径等因素,并且无法深入到更细、更深的粒度,例如在电商行业中,用户点击“购物车”是一次交互行为,无埋点会忽略用户信息、商品品类等维度信息,若网站设置反爬虫机制,那么基于网络爬虫原理的数据采集的方法将不可用。另外,以上方法无法获的网络服务性能方面的数据,无法感知网络延迟带来的用户体验等问题。

因此,本领域亟需一种无埋点数据采集方法,以解决上述技术问题。

实用新型内容

有鉴于此,本发明的目的在于提供一种无埋点数据采集方法、设备以及存储介质,以解决背景技术中所述的至少一个技术问题。

具体的,本发明的第一方面,提供了一种无埋点数据采集方法,其步骤包括:

流量预处理,从目的数据源获取第一数据流,应用第一策略对数据流进行筛选,获得第三数据流;

流量解析,对第三数据流进行解析,判断第三数据流的特征,对判断结果进行仲裁;

流量元数据提取,应用第二策略对第三数据流的特征进行处理,获得第三数据流的元数据。

采用上述技术方案,通过对数据流进行筛选,可以有效减少流量解析过程中的运算压力,从而提高数据采集的效率。

优选地,所述流量预处理步骤中,还包括步骤,对数据流进行复制,获得第一数据流、第二数据流。

采用上述方案,通过对数据流进行复制,保证了原始数据流不会被后续的操作步骤所影响,改善用户的使用体验。

优选地,采用分光器对数据流进行复制,所述第一数据流与第二数据流中的数据相同。

优选地,所述流量预处理步骤中,还包括步骤,对第三数据流的进行解封装处理,获得第三数据流的标记特征。

优选地,所述流量预处理步骤中,还包括步骤,创建流表,所述流表包括第三数据流的标签信息。

优选地,所述标签信息包括标记特征。

采用上述技术方案,可以通过数据流的标记特征更快速的分辨数据来源,提高了数据采集效率。

优选地,所述标记特征包括五元组特征。

优选地,标签信息包括第三数据流的状态特征。

优选地,所述第三数据流的状态特征包括留存阈值,判断同类第三数据流的再次出现时间是否超过留存阈值,若超过,则将流表中将该第三数据流标签信息删除。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京浩瀚深度信息技术股份有限公司,未经北京浩瀚深度信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911337431.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top