[发明专利]用于批量和实时特征计算的系统和方法在审
| 申请号: | 201910789592.2 | 申请日: | 2019-08-26 |
| 公开(公告)号: | CN110502579A | 公开(公告)日: | 2019-11-26 |
| 发明(设计)人: | 穆妮;王太泽 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
| 主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/21;G06N20/00;G06Q10/04 |
| 代理公司: | 11286 北京铭硕知识产权代理有限公司 | 代理人: | 董钢;韩明星<国际申请>=<国际公布>= |
| 地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实时特征 特征计算 脚本 管理服务器 离线数据库 实时数据库 计算逻辑 特征计算单元 分布式计算 获取并存储 场景 计算单元 实时计算 部署 统一 | ||
本公开提供了一种用于批量和实时特征计算的系统和方法,所述系统包括:管理服务器、一个或更多个批量特征计算单元、一个或更多个分布式计算单元、一个或更多个实时特征计算单元、离线数据库、以及实时数据库。所述管理服务器接收包含特征计算逻辑的脚本,在批量特征计算场景下,启动批量特征计算,并且在实时特征计算场景下,部署所述脚本以产生实时计算计划,其中,包含所述特征计算逻辑的脚本针对批量特征计算逻辑和实时特征计算逻辑具有统一性,实时数据库从离线数据库获取并存储用于实时特征计算的数据。根据本公开,可通过所述脚本统一批量特征计算逻辑和实时特征计算逻辑。
技术领域
本公开总体说来涉及数据处理领域,更具体地讲,涉及一种用于批量和实时特征计算的系统和方法。
背景技术
随着海量数据的出现,人们倾向于使用机器学习技术来从数据中挖掘出价值。机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型;在面对新的情况时,利用训练好的模型来得到相应的预测结果。
基于这样的机器学习技术,产生了机器学习平台或系统。在机器学习平台或系统中,不论是训练机器学习模型的阶段,还是利用机器学习模型进行预估的阶段,都需要进行特征计算,例如,通过对数据进行特征抽取来得到包括各种特征的机器学习样本。
在现有的机器学习平台或系统中,用于执行特征计算的任务可包括线下任务和线上任务。
线下任务可用于批量特征计算,例如,当计划任务被启动时,批量的执行大数据的特征计算,待全部特征计算完成后,获取最终的执行结果用于后续的研究。线下任务可针对时间不敏感的业务场景,例如,在银行业务场景中,线下任务可包括根据一批用户前六个月的消费行为数据,预测各个用户是否购买理财产品。
线上任务可用于实时特征计算,例如,可实时的对一定数量的数据进行特征计算,获取的特征计算结果可用于预测操作。线上任务可针对时间敏感的业务场景,例如,在线上购物业务场景中,根据用户在最近浏览的商品进行相关产品推荐。
然而,在现有的机器学习平台或系统中,批量特征计算逻辑和实时特征计算逻辑是不统一的,两者不相同甚至存在冲突。在这种情况下,需要对两种特征计算逻辑分别进行设置和维护。
另外,在现有的机器学习平台或系统中,用于批量特征处理的离线数据库和用于实时特征处理的实时数据库是分离的,这两种个数据库中的数据不关联,需要分别设置并分别维护这两种数据库。
发明内容
本公开的示例性实施例在于提供一种用于批量和实时特征计算的系统和方法,以在各种特征抽取场景下,基于关联的离线数据库和实时数据库以及统一了批量和实时特征计算逻辑的脚本,统一的执行特征抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910789592.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速数据上链的共识机制
- 下一篇:一种集群数据库系统资源管控调度的方法





