[发明专利]一种基于离线强化学习的智能机器人对话方法及系统有效
| 申请号: | 202110633919.4 | 申请日: | 2021-06-07 |
| 公开(公告)号: | CN113360618B | 公开(公告)日: | 2022-03-11 |
| 发明(设计)人: | 郭洪飞;马向东;曾云辉;塔建;吴清见;何智慧;任亚平;张锐 | 申请(专利权)人: | 暨南大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/04 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
| 地址: | 510632 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 离线 强化 学习 智能 机器人 对话 方法 系统 | ||
本发明提出一种基于离线强化学习的智能机器人对话方法及系统,方法包括获取已有的对话数据信息,基于对话数据构建训练集;在训练集抽取预设关键信息,对关键信息进行数据处理,引入非策略的批量强化学习算法;构建基于对话预判模型,并利用基于关键信息得到的数据对模型进行训练;获取待交流对话的数据信息;从数据信息中抽取预设关键信息,通过数据处理得到第一向量;利用已训练的模型处理第一向量,得到对应的第一标签,根据第一向量和第一标签进行决策输出;基于决策与用户进行对话。系统包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块。
技术领域
本发明涉及机器人技术领域,特别是一种基于离线强化学习的智能机器人对话方法及系统。
背景技术
智能问答机器人是模拟人类对话的计算机程序,研究者需要预先构建知识库,机器接收问题后经过计算,返回最贴切的匹配。交互机器人根据问答需求和场景分为任务型和非任务型两种类别。其中,非任务型对话面向开放领域,用户的对话不涉及要完成的具体任务,聊天机器人仅需根据具体主题及对话背景和用户交互,同时实时地为用户切换合适的主题,答案返回的方式分为检索式和生成式。检索式问答系统通过检索知识库中的所有候选结果将最可能的结果作为答案返回给用户随着人工智能兴起,人们开始研究智能问答机器人技术,以促进不同行业发展,并且智能问答机器人已在电子商务、休闲娱乐和个人助理等领域得到广泛研究与应用,在教育领域的应用亦受到众多学者关注,如乔治亚理工学院针对在线课程研发教师助理Jill Wastion,澳大利亚迪肯大学研发一款Chatbot校园精灵。随着计算机辅助教学(Computer Aided Instruction,CAI)及智能助导系统(Intelligent Tutoring Systems,ITS)的兴起,诸多学者通过开源平台研发智能问答机器人,随之开展促进学习提升的各种研究,如针对英语学习的嵌入式智能问答机器人DonQuijote、Mike等,基于医学学科的智能问答机器人Medchatbot、针对心理学科的Freudbot以及面向公式学习的xotria等,国内研究如清华图书馆智能问答机器人“小图”、基于英语学习的ALICE等。
在国外,Lowe R等人提出通过多层RNN网络来保存用户输入的上下文信息,将上下文与候选结果通过RNN编码得到向量形式,通过多方式多策略编码先前对话信息改进上下文表示,度量上下文与候选集间的向量匹配得分,根据匹配分数为用户返回最优结果。识库质量差时会直接影响问答体验,而生成式多轮交互机器人通过学习大量语料库后,Sutskever Ilya提出的Seq2Seq为序列到序列的编码-解码模型,在自动文摘,机器翻译等文本生成任务中效果明显。Seq2Seq模型在一定长度(约50个字符)下信息表示上比较好,但是在多轮交互问答任务中,由于对话上下文信息量不定,常常超过50字符,因此传统Seq2Seq模型对长上下文信息任务中表现不足,因此,Sordoni A等人提出了引入层级化思想的HRED(Hierarchical Recurrent Encoder-Decoder),模型有两层编码层,一层对对话中的字词进行编码得到句子向量,另一层根据对话中的上下文信息编码句子向量,将得到的多轮交互编码信息输入网络生成结果,该模型能够改进长交互轮数时的多轮对话效果同时一定程度上解决了RNN模型输入过长时存在的梯度消失问题。总体而言,国外对智能问答机器人在学习领域的应用探索不断深入,而国内刚刚起步,相关研究甚少。
普通的强化学习算法在智能机器人的问答系统中广泛应用,但存在一些缺陷。强化学习需要与环境不断交互、学习才能逐渐展现出更好的性能,而在人机交互初期,因为智能体所交互的数据较少,智能化水平低,开放域交流效果差。大多数深度强化学习(RL)系统不能有效地从非策略数据中学习,特别是他们不能在环境中在线探索,这些都导致将RL应用于收集数据会使得成本非常昂贵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110633919.4/2.html,转载请声明来源钻瓜专利网。





