[发明专利]深度学习系统和方法以及使用深度学习的无线网络优化有效
| 申请号: | 201880041287.9 | 申请日: | 2018-07-05 |
| 公开(公告)号: | CN110770761B | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 谭涌溪;杨劲;宋其涛;陈云君;叶张翔 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 深度 学习 系统 方法 以及 使用 无线网络 优化 | ||
1.一种深度学习方法,包括:
使用一组权值初始化神经网络,所述神经网络用于确定动作,所述动作调节与无线网络中的基站相关联的小区的一个或多个设置,每个基站为一个或多个小区内的用户设备UE提供通信服务;以及
通过使用深度强化学习DRL过程训练所述神经网络,所述DRL过程包括:
生成针对所述无线网络中的多个小区的第一多个经验元组,每个经验元组包括标识小区的小区标识符、所述小区的第一状态、所述小区的第二状态、使所述小区从所述第一状态转移到所述第二状态的动作、以及对采取所述动作的奖励值,其中,小区的状态包括提供所述小区的覆盖区域的基站的设置,奖励值是基于从所述无线网络中的UE接收的测量报告使用成本函数计算的,其中,每个经验元组可以是DRL生成的经验元组或专家生成的经验元组,在所述DRL生成的经验元组中,相应动作由DRL智能体根据DRL技术基于所述神经网络选择,在所述专家生成的经验元组中,所述相应动作基于专家经验提供,并且其中,基于第一准则确定动作是由所述DRL智能体基于所述神经网络选择还是基于所述专家经验提供;以及
从所述第一多个经验元组中选择第二多个经验元组;以及
根据所述第二多个经验元组中的奖励值更新所述神经网络的所述一组权值。
2.根据权利要求1所述的方法,其中,所述第一准则是基于概率的准则、基于相似度的准则、或基于阈值的准则。
3.根据权利要求1-2中任一项所述的方法,其中,使用所述一组权值初始化所述神经网络包括:
确定是使用随机选择的权值还是使用从专家神经网络获得的权值初始化所述神经网络,所述专家神经网络已使用深度学习技术进行训练并且可以提供用于初始化所述神经网络的权值。
4.根据权利要求1-2中任一项所述的方法,其中,生成所述第一多个经验元组还包括:
基于所述第一准则确定经验元组是使用由所述DRL智能体基于所述神经网络选择的动作生成,还是基于所述专家经验提供。
5.根据权利要求1-2中任一项所述的方法,其中,从所述第一多个经验元组中选择所述第二多个经验元组包括:
基于第二准则确定从所述第一多个经验元组选择DRL生成的经验元组还是专家生成的经验元组。
6.根据权利要求5所述的方法,其中,所述第二准则是基于阈值的准则、基于概率的准则、基于相似度的准则、基于经验元组间的关系的准则、或基于重要性采样的准则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880041287.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:对物理系统的未来状态进行对象级预测
- 下一篇:神经网络交叉开关堆叠





