[发明专利]线上场景特征数据存储方法、系统和数据抽取系统在审
申请号: | 201710700601.7 | 申请日: | 2017-08-16 |
公开(公告)号: | CN107451292A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 李志鹏;余文虎;陈璐 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 赵倩男 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 线上 场景 特征 数据 存储 方法 系统 抽取 | ||
技术领域
本发明涉及数据存储领域,尤其涉及一种线上场景特征数据存储方法、系统和数据抽取系统。
背景技术
随着机器学习技术的发展,算法在我们的生活中有了越来越广泛的应用。在电商领域,精确的推荐算法会给公司带来极大的收益。因此如何提升算法的准确性是每个公司都关心的问题,各大电商也都为此投入了极多的资源。有效地迭代算法模型是提升推荐算法准确性的关键一环,在迭代过程中,通常会用到大量的特征作为输入数据,因此,获取足够的高质量的特征是决定推荐算法精确与否的关键。
例如,线上每次请求会召回一批商品,然后根据用户的行为数据和用户模型计算出每个商品的特征。算法模型会根据每个商品的特征计算出每个商品的得分,最后选出得分最高的几个商品推荐给用户。线上计算特征这种行为是一次性的,不会被记录下来。因此在线下训练模型的时候,如果想利用上述的特征,就需要在线下机器上再次计算一遍这些特征。
申请人发现,现有技术方案存在三个缺点:第一个缺点是浪费资源,由于线上计算的特征是一次性的,不能重复使用,因此,还需要利用线下的计算资源再次计算一遍特征,当特征维度很高的时候,线下计算需要耗费很多的资源来回放线上的特征。第二个缺点是浪费时间,线上集群的计算能力比线下机器的计算能力要强的多,相对于线上资源,使用线下资源去回放线上特征会耗费更多的时间,经常会影响模型的迭代进度。第三个缺点是计算出来的特征不准确,影响模型迭代的效果。另外,特征的计算以历史的用户行为数据和用户画像数据为基础,在线下再次计算特征的时候,用户的行为数据和用户画像数据可能都已经改变,因此线下计算出来的特征值也可能改变,最终会导致模型迭代的效果不那么尽如人意。
发明内容
本发明要解决的一个技术问题是提供一种线上场景特征数据存储方法、系统和数据抽取系统能够实现高质量的线上场景特征数据存储。
根据本发明一方面,提出一种线上场景特征数据存储方法,包括:数据抽取系统获取客户端集群计算的线上场景特征数据;将线上场景特征数据推送至hadoop集群的数据表中进行存储,以便根据线上场景特征数据进行场景回放。
进一步地,数据抽取系统抽取服务器集群在本地磁盘存储的客户端集群计算的线上场景特征数据;其中,客户端集群将线上场景特征数据异步发送至服务器集群,服务器集群将线上场景特征数据存储在本地磁盘。
进一步地,所示数据抽取系统使用wget的方式将服务器集群在本地磁盘存储的线上场景特征数据抽取到临时仓库。
进一步地,该方法还包括:所示数据抽取系统对线上场景特征数据进行压缩和/或过滤处理。
进一步地,数据抽取系统根据线上场景特征数据类型的不同将线上场景特征数据推送至hadoop集群的数据表的相应的分区进行存储。
根据本发明的另一方面,还提出一种数据抽取系统,包括:特征数据获取单元,用于获取客户端集群计算的线上场景特征数据;特征数据推送单元,用于将线上场景特征数据推送至hadoop集群的数据表中进行存储,以便根据线上场景特征数据进行场景回放。
进一步地,特征数据获取单元还用于抽取服务器集群在本地磁盘存储的客户端集群计算的线上场景特征数据;其中,客户端集群将线上场景特征数据异步发送至服务器集群,服务器集群将线上场景特征数据存储在本地磁盘。
进一步地,特征数据获取单元还用于使用wget的方式将服务器集群在本地磁盘存储的线上场景特征数据抽取到临时仓库。
进一步地,该数据抽取系统还包括:特征数据处理单元,用于对线上场景特征数据进行压缩和/或过滤处理。
进一步地,特征数据推送单元还用于根据线上场景特征数据类型的不同将线上场景特征数据推送至hadoop集群的数据表的相应的分区进行存储。
根据本发明的另一方面,还提出一种线上场景特征数据存储系统,包括客户端集群、hadoop集群和上述的数据抽取系统。
进一步地,该系统还包括服务器集群。
根据本发明的另一方面,还提出一种数据抽取系统,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的方法。
根据本发明的另一方面,还提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710700601.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种不锈钢管材的快速清洁装置
- 下一篇:软式内窥镜喷淋灌流清洗装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置