[发明专利]数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质有效
| 申请号: | 202010188264.X | 申请日: | 2020-03-17 | 
| 公开(公告)号: | CN111368207B | 公开(公告)日: | 2023-09-22 | 
| 发明(设计)人: | 罗华林;徐梦远;贾滕阳;杨光 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 | 
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/215;G06F16/23 | 
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 | 
| 地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 系统 候选 数据 电子设备 计算机 可读 存储 介质 | ||
本发明实施例提供了一种数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质,该方法包括:获取所述数据使用方发送的第一数据请求;根据预先确定的数据有效窗口的时长以及数据有效规则,判断所述第一数据请求所请求的第一目标数据是否需要更新,并在所述第一目标数据需要更新的情况下,对所述第一目标数据进行更新;其中,所述第一目标数据是所述候选数据池中存储的数据,所述数据有效规则包括至少一种对数据的特征的要求。因而,本发明方案,按需进行强制更新,则在进行数据更新时,并不会占据过多的计算资源,从而在一定程度上减少了更新数据库时所消耗的计算资源。
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质。
背景技术
在互联网行业中非常普遍和重要的推荐业务,都依赖一个候选数据池,其中,候选数据池提供可供推荐的数据,对接数据生产系统,对数据进行结构化,准入限制,清洗,退场等功能,并为机器学习,推荐引擎等下游模块提供数据服务。
推荐候选数据池服务一般有这几方面的特点:
第一方面,数据量大,一般会达到亿级,甚至百亿,千亿级;
第二方面,更新要求低延迟,一般要求亚秒级延迟;数据准确性要求高,容错性强,对于脏数据有自动修复功能;
第三方面,对业务变化适应性强,能够适应多种不同的业务形态。
目前业界主流的候选数据池服务数据拓扑,采用的是Lambda架构。所谓lambda架构,即将大数据处理分为批量层、实时层和服务层。其中,批量层负责定时批量处理数据,即全库更新候选数据池;实时层负责实时处理数据,用于新物料实时入库,无效数据实时下线,标签特征实时更新等;服务层负责融合批量层和实时层的数据,统一对外服务。
其中,实时层和批量层在进行数据处理的过程中,由于系统丢包可能会丢失某些数据,或者某些数据任务处理失败,导致某些数据并未成功处理,但是现有技术中并不关心哪些数据被丢失或者哪些数据未被成功处理,而是每隔一定时间(例如每天的零点)对候选数据池中的全部数据都进行更新。其中,更新之前若存在被丢失的数据或者未被成功处理的数据,通过现有技术中的前述更新方式,则可以补充这些被丢包的数据或者修正未成功处理的数据。
由上述可知,现有技术中,由批量层对候选数据池全数据库进行批量更新,而候选数据池的数据量极大,且并不关心哪些是真正需要被更新的数据,而是在每一次更新时都对候选数据池中全部的数据进行更新,即需要针对候选数据池全数据库中的每一项数据重新从生产方读取一次数据,再写入到候选数据池中,这样会消耗极大的计算资源。
发明内容
本发明实施例的目的在于提供一种数据处理方法及系统、候选数据池、电子设备、计算机可读存储介质,以在一定程度上减少更新候选数据池时消耗的计算资源。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种数据处理方法,应用于包括候选数据池和数据使用方的系统,所述方法执行于所述候选数据池,所述方法包括:
获取所述数据使用方发送的第一数据请求;
根据预先确定的数据有效窗口的时长以及数据有效规则,判断所述第一数据请求所请求的第一目标数据是否需要更新,并在所述第一目标数据需要更新的情况下,对所述第一目标数据进行更新;
其中,所述第一目标数据是所述候选数据池中存储的数据,所述数据有效规则包括至少一种对数据的特征的要求。
在本发明实施的第二方面,还提供了一种候选数据池,所述候选数据池与数据使用方组成一系统,所述候选数据池包括:
服务模块,用于获取所述数据使用方发送的第一数据请求;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010188264.X/2.html,转载请声明来源钻瓜专利网。





