[发明专利]训练方法和装置、对话处理方法和系统及介质在审
| 申请号: | 201910390546.5 | 申请日: | 2019-05-10 |
| 公开(公告)号: | CN111914069A | 公开(公告)日: | 2020-11-10 |
| 发明(设计)人: | 朱红文;周莉;代亚菲;陈雪;邹声鹏;宋伊萍;张铭;张子涵;琚玮 | 申请(专利权)人: | 京东方科技集团股份有限公司;北京大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06K9/62;G06N20/00;G16H10/60;G16H50/20;G16H80/00 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王娟;李文娟 |
| 地址: | 100015 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 训练 方法 装置 对话 处理 系统 介质 | ||
1.一种强化学习模型的训练方法,包括:
获取用于训练所述强化学习模型的未标注数据和标注数据;
基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池;
利用所述经验池训练所述强化学习模型。
2.如权利要求1所述的方法,其中,所述基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池包括:
基于所述未标注数据,与环境进行交互,生成所述经验池。
3.如权利要求2所述的方法,其中,
所述经验池包括由第一状态、动作、奖励分数和第二状态构成的序列;
其中,所述第一状态和动作是基于所述未标注数据获取的;所述第二状态是在所述环境处于第一状态的情况下,被施加所述动作后,所述环境迁移到的状态。
4.如权利要求3所述的方法,其中,
所述奖励分数包括在所述环境处于第一状态的情况下,被施加所述动作后,在所述标注数据的引导下做出的反馈。
5.如权利要求3所述的方法,其中,
所述奖励分数还包括所述动作的可信度。
6.如权利要求1所述的方法,其中,所述利用所述经验池训练所述强化学习模型还包括:
在训练所述强化学习模型的过程中,根据训练结果更新所述经验池;
利用更新的所述经验池对所述强化学习模型进行训练。
7.如权利要求3所述的方法,其中,
所述未标注数据为医疗对话数据;和/或
所述标注数据为医疗病例数据。
8.如权利要求7所述的方法,其中,
所述动作是基于所述医疗对话数据获取的任一对话动作;
所述第一状态是所述医疗对话数据中在所获取的所述对话动作之前的所有历史信息。
9.如权利要求1-8任一项所述的方法,其中,所述训练方法用于训练用于医疗对话系统的强化学习模型。
10.一种对话处理方法,包括:
获取对话信息;
基于强化学习模型生成回复信息;
基于所述回复信息对所述对话信息进行响应;
其中,所述强化学习模型是通过如下方法训练得到的:
获取用于训练所述强化学习模型的未标注数据和标注数据;
基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池;
利用所述经验池训练所述强化学习模型。
11.如权利要求10所述的方法,其中,所述基于所述未标注数据,参考所述标注数据生成用于训练所述强化学习模型的经验池包括:
基于所述未标注数据,与环境进行交互,生成所述经验池。
12.如权利要求11所述的方法,其中,
所述经验池包括由第一状态、动作、奖励分数和第二状态构成的序列;
其中,所述第一状态和动作是基于所述未标注数据获取的;所述第二状态是在所述环境处于第一状态的情况下,被施加所述动作后,所述环境迁移到的状态。
13.如权利要求12所述的方法,其中,
所述奖励分数包括在所述环境处于第一状态的情况下,被施加所述动作后,在所述标注数据的引导下做出的反馈。
14.如权利要求12所述的方法,其中,
所述奖励分数还包括所述动作的可信度。
15.如权利要求12所述的方法,其中,
所述未标注数据为医疗对话数据;和/或
所述标注数据为医疗病例数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司;北京大学,未经京东方科技集团股份有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910390546.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通信方法和通信装置
- 下一篇:智能型充电设备以及智能型能源补充设备





