[发明专利]基于知识检索图和预训练模型的中文对话知识检索方法有效

专利信息
申请号: 202011568524.2 申请日: 2020-12-25
公开(公告)号: CN112528005B 公开(公告)日: 2022-08-09
发明(设计)人: 戴斯铭;潘嵘;毛明志 申请(专利权)人: 中山大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/36;G06K9/62;G06N3/04;G06N3/08
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 张金福
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 知识 检索 训练 模型 中文 对话 方法
【说明书】:

本发明针对现有技术处理多轮对话之间的话题切换时性能不佳的技术问题,提出了一种基于知识检索图和预训练模型的中文对话知识检索方法,通过利用预训练模型建模了文本语义信息以及利用知识检索图结构信息建模了知识之间的联系,可以更加准确地检索出与当前对话后续回复相关的知识三元组,从而让后续生成的知识对话可以更好的满足多轮对话之间的话题切换,得到更好的对话效果。

技术领域

本发明涉及自然语言处理的技术领域,具体涉及自然语言处理在人机对话上的应用,更具体地,涉及一种基于知识检索图和预训练模型的中文对话知识检索方法、系统、储存介质及计算机设备。

背景技术

自然语言处理技术一直都致力于让机器可以做到像人一样流畅、自如地沟通,这也是市面上的许多语音助手,如Siri、小度等产品设计出来的初衷;然而,人们也希望机器在流畅对话的同时,其产出的对话回复能够带有知识的丰富性,而不仅仅是单纯地响应对话内容。所以,在为机器提供训练语料时,除了提供相应的历史对话信息,同时也需要提供相应的对话知识,让机器在获取知识的前提下生成富有知识性的对话回复。

公开时间为2020-07-28,公开号为CN111462749A的中国申请专利:基于对话状态导向和知识库检索的端到端对话系统及方法,其具有对话状态与知识库两步检索机制结合的知识库访问结构,以期通过知识库库间检索的方式维护知识库一致性,从而减少知识库检索错误的问题。但上述专利在内的现有技术在处理多轮对话之间的话题切换时,由于对话和知识的语义信息变得更加复杂,对话效果并不好。

发明内容

针对现有技术的局限,本发明提出一种基于知识检索图和预训练模型的中文对话知识检索方法、系统、储存介质及计算机设备,本发明采用的技术方案是:

一种基于知识检索图和预训练模型的中文对话知识检索方法,包括以下步骤:

创建知识检索数据集;所述知识检索数据集包括样本对数据集以及知识检索图;所述样本对数据集包括正样本对,所述正样本对由样本对话内容以及与所述样本对话内容对应的知识三元组构成;所述知识检索图根据所述样本对数据集的知识三元组构建;

以知识增强语义理解模型构建用于获取特征表示的预训练模型;

通过按预设的批尺寸在所述样本对数据集内抽取正样本对以及随机构造负样本对,构建训练数据包,根据所述训练数据包中出现的知识三元组在所述知识检索图基础上分别构建正、负知识子图;运用所述训练数据包以及正、负知识子图对所述预训练模型进行训练;

运用训练后的预训练模型获取所述样本对数据集的各知识三元组的特征表示;获取待处理对话内容,运用训练后的预训练模型获取所述待处理对话内容的特征表示;根据所述正检索项的特征表示以及所述待处理对话内容的特征表示检索出所述待处理对话内容对应的知识三元组。

相较于现有技术,本发明通过利用预训练模型建模了文本语义信息以及利用知识检索图结构信息建模了知识之间的联系,可以更加准确地检索出与当前对话后续回复相关的知识三元组,从而让后续生成的知识对话可以更好的满足多轮对话之间的话题切换,得到更好的对话效果。

作为一种优选方案,创建知识检索数据集包括以下步骤:

以由样本对话内容以及与所述样本对话内容对应的知识三元组构成的正样本对构建样本对数据集;

根据所述样本对数据集的知识三元组构建知识检索图;

对所述样本对数据集以及知识检索图的数据进行字符级切分,并将切分得到的字符分别映射为对应的字典ID;

按预设的句子长度阈值对所述样本对数据集以及知识检索图的数据进行截断;

以经过所述切分、映射以及截断操作的所述样本对数据集以及知识检索图作为知识检索数据集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011568524.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top