[发明专利]一种数据采样方法和装置在审
| 申请号: | 202011232806.5 | 申请日: | 2020-11-06 |
| 公开(公告)号: | CN112256653A | 公开(公告)日: | 2021-01-22 |
| 发明(设计)人: | 杨冠;林悦 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
| 主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/176;G06F16/182;G06N20/00 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 吴文心 |
| 地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 采样 方法 装置 | ||
本发明实施例提供了一种数据采样方法和装置,应用于采样系统,所述采样系统包含多个训练节点和多个采样节点,所述训练节点中具备与网络文件系统连接的临时文件系统,其中,所述方法包括:采用所述多个采样节点从所述网络文件系统中确定目标采样策略,并执行目标采样策略进行采样得到采样数据;通过网络文件系统存储所述采样数据至所述训练节点的临时文件系统中;采用所述多个训练节点从临时文件系统中读取所述采样数据,对预设初始策略模型进行训练得到目标策略模型。通过引入网络文件系统和临时文件系统,构建了一套高效的异步采样框架,从而引入了异步采样的高效性和高拓展性,提升了读取采样数据的速度。
技术领域
本发明涉及人工智能技术领域,特别是涉及一种数据采样方法和一种数据采样装置。
背景技术
强化学习是机器学习的一个领域,探讨智能体如何基于环境而行动,以取得最大的预期利益。相较于监督学习,强化学习不需要正确的输入/输出对,其更注重规划,尝试在已有知识和新获得的知识之间找到一个合理的平衡。探索对于强化学习是一个非常重要的部分,当数据分布空间较大时,强化学习需要大量的采样数据进行探索/训练才能学习到比较好的策略。
现有技术中,主要有同步采样和异步采样两种采样方法,其中,同步采样方法通过同时启动若干环境,运行一定时间后将采样的结果返回,这种采样方法训练的优点是采样时各环境的采样策略一定是最新的采样策略,但缺点也非常明显,需要等待所有环境的采样结束才可以进行后续的训练,环境复杂度增加或者环境数目增多都会极大地影响整体采样的速度,采样速度慢,拓展性较差。异步采样方法通过构建一个存储队列来储存采样的结果,每个环境采样完成并将结果返回给储存队列后,主训练程序和采样环境完全解耦,不需要等待所有环境采样结束,直接从存储队列中读取数据即可。异步采样的优势是一次采样不需要等待所有环境的采样结束,采样环境数目增加和复杂度增加都不会影响整体采样的速度,但缺点是异步采样不能够保证所有环境的采样策略都是最新的采样策略,并且异步采样往往都涉及到多台服务器之间的网络通信,而多个采样节点之间的策略参数同步随着策略参数的增大,以及节点数目的增多会导致采样速度降低和带宽占用过大等问题。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据采样方法和相应的一种数据采样装置。
第一方面,本发明实施例公开了一种数据采样方法,包括:
采用所述多个采样节点从所述网络文件系统中确定目标采样策略,并执行所述目标采样策略进行采样得到采样数据;
通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中;
采用所述多个训练节点从所述临时文件系统中读取所述采样数据,对预设初始策略模型进行训练得到目标策略模型。
可选地,所述执行目标采样策略进行采样得到采样数据,包括:
针对所述多个采样节点配置采样环境;
在所述采样环境下,执行所述目标采样策略进行采样得到采样数据。
可选地,所述采用所述采样节点从所述网络文件系统中确定目标采样策略,包括:
采用所述多个采样节点从所述网络文件系统中获取策略参数;
根据所述策略参数更新所述采样节点对应的原始采样策略,得到目标采样策略。
可选地,在所述通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中的步骤之前,还包括:
对所述采样数据进行压缩处理。
可选地,所述通过所述网络文件系统存储所述采样数据至所述训练节点的临时文件系统中,包括:
将所述采样数据发送到所述网络文件系统;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011232806.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带智能控制装置的电梯实训设备
- 下一篇:全编链形成的眼睫毛经编多梳织物
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





