[发明专利]强化学习模型的更新方法和装置有效
| 申请号: | 201911206271.1 | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN110990548B | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 张望舒;温祖杰 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06Q30/01;G06Q30/0207;G06N20/00 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 孙欣欣;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 强化 学习 模型 更新 方法 装置 | ||
1.一种强化学习模型的更新方法,所述强化学习模型用于机器人客服根据用户问句确定知识点相关回答供用户反馈,所述强化学习模型包括第一动作价值网络和第二动作价值网络,所述第一动作价值网络承担第一比例的线上流量,所述第二动作价值网络承担第二比例的线上流量,所述第一比例大于所述第二比例,所述方法包括:
接收线上的当前问句;
当所述当前问句被分配给所述第一动作价值网络时,以所述当前问句作为第一状态,根据第一概率和第一动作价值函数选择第一回答作为第一动作;
在所述第一状态执行所述第一动作,获取所述第一状态和所述第一动作对应的第一奖励,以及状态更新后的第一更新状态;
将所述第一状态、所述第一动作、所述第一奖励和所述第一更新状态作为一条记录,以第二概率将该条记录存储在经验回放列表中;
当所述当前问句被分配给所述第二动作价值网络时,以所述当前问句作为第二状态,根据第三概率和第二动作价值函数选择第二回答作为第二动作;
在所述第二状态执行所述第二动作,获取所述第二状态和所述第二动作对应的第二奖励,以及状态更新后的第二更新状态;
将所述第二状态、所述第二动作、所述第二奖励和所述第二更新状态作为一条记录,以第四概率将该条记录存储在所述经验回放列表中;
从所述经验回放列表中抽取记录,根据该记录利用所述第一动作价值函数计算累积奖励,根据所述累积奖励对所述第二动作价值网络进行训练,得到训练后的所述第二动作价值网络;
当确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络时,将所述第一动作价值网络更新为训练后的所述第二动作价值网络。
2.如权利要求1所述的方法,其中,所述以所述当前问句作为第一状态,根据第一概率和第一动作价值函数选择第一回答作为第一动作,包括:
以所述当前问句作为第一状态,以所述第一概率根据所述第一动作价值函数选择价值最大的第一回答作为第一动作,以1减所述第一概率的概率随机选择第一回答作为第一动作。
3.如权利要求1所述的方法,其中,所述以所述当前问句作为第二状态,根据第三概率和第二动作价值函数选择第二回答作为第二动作,包括:
以所述当前问句作为第二状态,以所述第三概率根据所述第二动作价值函数选择价值最大的第二回答作为第二动作,以1减所述第三概率的概率随机选择第二回答作为第二动作。
4.如权利要求1所述的方法,其中,所述第二概率小于所述第四概率。
5.如权利要求4所述的方法,其中,所述第四概率为1。
6.如权利要求1所述的方法,其中,所述根据该记录利用所述第一动作价值函数计算累积奖励,包括:
对该记录中的奖励,以及利用所述第一动作价值函数计算的未来奖励,进行加权求和,得到所述累积奖励。
7.如权利要求1所述的方法,其中,所述根据所述累积奖励对所述第二动作价值网络进行训练,包括:
利用所述第二动作价值函数计算估计奖励;
根据所述累积奖励和所述估计奖励的差值,以最小化该差值为目标调整所述第二动作价值函数的参数,以对所述第二动作价值网络进行训练。
8.如权利要求1所述的方法,其中,所述确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络,包括:
比较所述第二动作价值网络与所述第一动作价值网络的线上指标,当所述线上指标符合预设条件时,确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络,其中,所述线上指标包括标签的点击率和/或在线转人工率。
9.如权利要求1所述的方法,其中,所述经验回放列表具有最大容量,所述方法还包括:
当所述经验回放列表已达到最大容量且有新的记录需要存储时,按照存储时间的先后顺序丢弃最先存储的记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911206271.1/1.html,转载请声明来源钻瓜专利网。





