[发明专利]一种面向对话系统中的自然语言理解方法及装置有效
| 申请号: | 202110632046.5 | 申请日: | 2021-06-07 |
| 公开(公告)号: | CN113297364B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 刘露;王乃钰;包铁;张雪松;彭涛 | 申请(专利权)人: | 吉林大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/242;G06F40/30;G06N3/0442;G06N3/0464;G06N3/08 |
| 代理公司: | 北京华际知识产权代理有限公司 11676 | 代理人: | 曹书华 |
| 地址: | 130012 吉*** | 国省代码: | 吉林;22 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 对话 系统 中的 自然语言 理解 方法 装置 | ||
本发明属于智能对话技术领域,具体为一种面向对话系统中的自然语言理解方法及装置,包括是词嵌入层、编码表示层和联合学习层,其结构合理,明基于收集的特定领域数据集与1)原始的BERT‑WWM模型2)原始的ERNIE模型3)基于预训练的联合学习模型4)知识蒸馏后的3层BERT‑WWM模型。四个模型进行了对比实验,在特定领域数据集上,3)模型在意图分类准确率和槽位识别F1两个性能指标上均好于1)和2)模型,而经过知识蒸馏后的4)模型参数规模大大减少,推理延迟也有效减低,且性能损失较小。
技术领域
本发明涉及智能对话技术领域,具体为一种面向对话系统中的自然语言理解方法及装置。
背景技术
互联网的高速发展和广泛普及使得21世纪成为一个数据爆炸的时代。人们对于各类信息的需求量急剧增加,需求信息的类别也更加广泛,当用户面对规模庞大且复杂的信息时,如何对海量信息进行有效查找和获取成为了利用信息的关键,这对于信息检索方式提出了更高的要求。传统的检索方式存在:(1)仅对关键字进行匹配,未考虑用户语义层面的需求;(2)搜索结果一般返回大量文本和网页,需要用户进一步选择。面向特定领域的对话系统(Dialog System)、问答系统(Question Answering System)正是改进传统检索方式的一个研究课题。相较于传统检索方式,对话问答系统可以从语义层面理解问题,而不是简单的关键词匹配。还可以代替用户筛选网页和文档中的内容,返回的结果更加精确,并且返回的是问题对应的答案而不是网页或文档。
可以根据应用场景的不同对话问答系统划分为四种:(1)常见问题(FrequentlyAsked Questions,FAQ)型:该类型的智能系统一般会给定问题和相应答案,使用模型和算法对用户输入进行解析和处理,并采用某种度量算法找出问题库中相似度最高的问题,返回对应答案。(2)任务型:该类型智能系统的设计目的就是协助用户完成某一任务,对用户输入进行解析,分析用户意图,并在对话策略模型的指导下采取一系列动作完成用户要求。(3)常识型:一般采用知识图谱作为系统的知识库,知识图谱中的三元组包含现实中以自然语言形式存储的常识信息,根据用户输入,从图谱中检索出答案并返回。(4)闲聊型:该类型的对话系统是在开放领域中与用户进行多轮次的对话,目的性较弱,但对于系统的智能性、语义连贯性要求较高。
智能对话由于对话系统在应用时存在涉及用户隐私、用户接受度不高、用户体验一般等问题,导致获取大量公开且高质量的对话数据集以及无监督语料十分困难,数据集的缺乏在较大程度上限制了对话系统的发展,带来了挑战。另一方面,对话系统中用户输入往往是口语化的表达,语义多义性、语法随意性程度较高,还具有句子长度分布不固定,内容发散等特点。上述特点都给意图分类任务带来了较大难度。此外,用户输入还可能包含多个意图,且多个意图间存在一定相关性,怎样识别是否存在多意图并将多个意图准确分类,也是意图分类任务面临的一个挑战。
系统的关键模块包括语义理解、对话状态追踪、对话管理和对话生成共4个部分。自然语言理解任务一般包含以下三个子任务:领域分类、意图分类和槽位识别。其中,领域分类的目的是使用模型或算法给出用户输入属于的领域类别,意图分类旨在对用户输入的意图进行识别。槽位识别通常按照序列标注任务解决,对用户输入中的实体进行识别和标注。本发明专利所提出的是面向特定领域的自然语言理解方法,因此在自然语言理解部分领域识别和意图识别被建模为一个子任务。即将用户输入总体上分为两部分,一部分为教育领域无关,另一部分为教育领域相关,对领域相关的输入进行更加细化的分类。
当前,对话系统在各个领域越来越引起人们的重视,深度学习技术的不断进步极大地推动了对话系统的发展。对于对话系统,深度学习技术可以利用大量的数据来学习特征表示和对用户意图进行分类和识别,这其中仅需要少量的手工操作。
发明内容
本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632046.5/2.html,转载请声明来源钻瓜专利网。





