[发明专利]用于批量和实时特征计算的系统和方法在审
| 申请号: | 201910789592.2 | 申请日: | 2019-08-26 |
| 公开(公告)号: | CN110502579A | 公开(公告)日: | 2019-11-26 |
| 发明(设计)人: | 穆妮;王太泽 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/21;G06N20/00;G06Q10/04 |
| 代理公司: | 11286 北京铭硕知识产权代理有限公司 | 代理人: | 董钢;韩明星<国际申请>=<国际公布>= |
| 地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实时特征 特征计算 脚本 管理服务器 离线数据库 实时数据库 计算逻辑 特征计算单元 分布式计算 获取并存储 场景 计算单元 实时计算 部署 统一 | ||
1.一种用于批量和实时特征计算的系统,其中,所述系统包括:
管理服务器,接收包含特征计算逻辑的脚本,在批量特征计算场景下,从注册到管理服务器的批量特征计算单元中选择用于批量特征计算的批量特征计算单元以启动批量特征计算,并且在实时特征计算场景下,向注册到管理服务器的实时特征计算单元部署所述脚本以产生实时计算计划,并从注册到管理服务器的实时特征计算单元中选择在执行实时计算计划时使用的实时特征计算单元,其中,包含所述特征计算逻辑的脚本针对批量特征计算逻辑和实时特征计算逻辑具有统一性;
一个或更多个批量特征计算单元,当被启动时注册到管理服务器,并且当被选择以启动批量特征计算时产生批量计算任务,并且将所述批量计算任务发送给一个或更多个分布式计算单元;
所述一个或更多个分布式计算单元,执行所述批量计算任务,以基于所述脚本和离线数据库存储的数据进行批量特征计算;
一个或更多个实时特征计算单元,当被启动时注册到管理服务器,并且当被选择以执行实时计算计划时,基于实时数据库存储的数据和所述脚本进行实时特征计算;
离线数据库,存储用于批量特征计算的数据;
实时数据库,从离线数据库获取并存储用于实时特征计算的数据。
2.根据权利要求1所述的系统,其中,离线数据库中的数据和实时数据库中的数据至少部分同步,
其中,实时数据库与离线数据库定时或响应于用户触发而基于数据变化或者基于主从同步机制进行数据同步。
3.根据权利要求2所述的系统,其中,实时数据库是内存数据库,和/或
管理服务器还初始化实时数据库,以获取与实时特征计算对应的数据字段结构,和/或
管理服务器还接收用户导入的原始数据并且将原始数据存储到离线数据库中作为用于批量特征计算的数据,或者管理服务器还将预先存入离线数据库的至少一部分数据作为用于批量特征计算的数据。
4.根据权利要求1所述的系统,其中,管理服务器还验证所述脚本是否存在语法错误,和/或基于至少一部分数据来调试与所述脚本对应的至少一部分中间运行结果和/或最终运行结果。
5.根据权利要求3所述的系统,其中,管理服务器还在接收到用于实时特征计算的至少一条数据并且实时计算计划被执行时,将所述至少一条数据发送给被选择的实时特征计算单元,其中,所述至少一条数据符合与实时特征计算对应的数据字段结构,
其中,实时特征计算单元在接收到所述至少一条数据时向实时数据库请求窗口数据,并且基于窗口数据以及所述脚本进行实时特征计算,
其中,所述窗口数据包含实时数据库的数据的全部或部分数据字段。
6.根据权利要求1所述的系统,其中,所述一个或更多个分布式计算单元基于离线数据库的数据存储路径来获取离线数据库存储的数据,并且基于获取的数据、所述脚本来执行批量特征计算,并且将批量特征计算执行状态发送给批量特征计算单元,
其中,管理服务器在接收到批量特征计算执行状态查询请求时,从批量特征计算单元获取批量特征计算执行状态。
7.根据权利要求1所述的系统,其中,批量特征计算的计算结果用于模型训练或批量预估,实时特征计算的计算结果用于基于训练的模型的预测,所述预测包括在线预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910789592.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速数据上链的共识机制
- 下一篇:一种集群数据库系统资源管控调度的方法





