[发明专利]一种基于对话关系的训练数据处理方法、装置及可读介质有效
| 申请号: | 202110624573.1 | 申请日: | 2021-06-04 |
| 公开(公告)号: | CN113268577B | 公开(公告)日: | 2022-08-23 |
| 发明(设计)人: | 邹辉;肖龙源;李稀敏 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335;G06F40/242;G06F40/295;G06K9/62 |
| 代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 张松亭 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对话 关系 训练 数据处理 方法 装置 可读 介质 | ||
本发明公开了一种基于对话关系的训练数据处理方法、装置及可读介质,通过词典将第一数据集中的每段对话中的每一个语句进行过滤,并标记出不包含词典中任一词的待识别语句;将每段对话中待识别语句进行实体识别,将实体类别与定义的实体类别进行比对,根据对比结果对第一数据集中的每段对话中的待识别语句进行过滤得到第二数据集;统计第二数据集中的每段对话中的三元组数据的两个实体所在的语句在对话中的相对位置距离,结合临界距离对第二数据集中的三元组数据进行过滤,得到三元组数据集合;基于三元组数据集合对第二数据集中的对话进行拆分,建立以对话片段和三元组单元作为最小训练单元的训练数据。本发明能减少无效信息干扰,实现数据增强。
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于对话关系的训练数据处理方法、装置及可读介质。
背景技术
世界上存在种类众多、数量众多的事物,它们之间可能存在这样或那样的联系。根据需要,将其中一些有意义的事物称作“实体”,并将一些实体之间的某些有意义的联系称为“实体关系”。一般来说,“关系”是“实体关系”的简称;“实体关系”是“实体及其关系”的简称,两个实体以及其中间的关系构成了关系三元组的三要素。
实体关系抽取是NLP领域的一个基础任务,广泛存在于文本挖掘、信息检索、智能问答等领域,占据非常重要的地位。现有的关系抽取大都是从单个语句中抽取关系三元组,缺少从聊天文本中抽取关系三元组的数据及相关数据处理方法。
在对话领域,两个实体间是否有关系往往不是在一两句话范围内就能确定的,大多可能发生在更长的距离,而实体间距离越长,关系抽取模型学习该关系的能力就越弱,现有方法为了避免在对话中抽取关系,都是抽取单个语句来抽取三元组关系,将遗漏大量有效信息。
现有的关系抽取模型大多采用人工标注的方式来获得训练数据,对话数据标注难度很高,且要耗费大量人力及时间。并且以单个语句来训练抽取三元组关系,在对话领域中训练得到的三元组关系准确率和效率都比较低。
有鉴于此,本发明提出一种基于对话关系的训练数据处理方法和装置是具有重要意义的。
发明内容
针对上述提到的采用单个语句抽取三元组关系能力弱、容易遗漏数据、训练数据不足等问题。本申请的实施例的目的在于提出了一种基于对话关系的训练数据处理方法、装置及可读介质,来解决以上背景技术部分提到的技术问题。
第一方面,本申请的实施例提供了一种基于对话关系的训练数据处理方法,包括以下步骤:
S1,构建词典,通过词典将第一数据集中的每段对话中的每一个语句进行过滤,并标记出不包含词典中任一词的待识别语句;
S2,将每段对话中待识别语句进行实体识别,得到对应的实体类别,将实体类别与定义的实体类别进行比对,根据对比结果对第一数据集中的每段对话中的待识别语句进行过滤得到第二数据集;
S3,统计第二数据集中的每段对话中的三元组数据的两个实体所在的语句在对话中的相对位置距离,并根据相对位置距离结合临界距离对第二数据集中的三元组数据进行过滤,得到三元组数据集合;以及
S4,基于三元组数据集合对第二数据集中的每段对话进行拆分,得到至少包含三元组数据集合中一个三元组单元的一个对话片段,建立以对话片段和三元组单元作为最小训练单元的训练数据。
在一些实施例中,第一数据集中的语句已完成三元组关系标注。
在一些实施例中,词典包含肯定词或否定词。
在一些实施例中,步骤S2具体包括:
若实体类别与定义的实体类别比对上,则保留待识别语句并将待识别语句存入第二数据集;
若实体类别与定义的实体类别未比对上,则删除待识别语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110624573.1/2.html,转载请声明来源钻瓜专利网。





