[发明专利]一种基于对话关系的训练数据处理方法、装置及可读介质有效
| 申请号: | 202110624573.1 | 申请日: | 2021-06-04 |
| 公开(公告)号: | CN113268577B | 公开(公告)日: | 2022-08-23 |
| 发明(设计)人: | 邹辉;肖龙源;李稀敏 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335;G06F40/242;G06F40/295;G06K9/62 |
| 代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 张松亭 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对话 关系 训练 数据处理 方法 装置 可读 介质 | ||
1.一种基于对话关系的训练数据处理方法,其特征在于,包括以下步骤:
S1,构建词典,通过所述词典将第一数据集中的每段对话中的每一个语句进行过滤,并标记出不包含所述词典中任一词的待识别语句;
S2,将每段对话中所述待识别语句进行实体识别,得到对应的实体类别,将所述实体类别与定义的实体类别进行比对,根据对比结果对所述第一数据集中的每段对话中的所述待识别语句进行过滤得到第二数据集;
S3,统计所述第二数据集中的每段对话中的三元组数据的两个实体所在的语句在对话中的相对位置距离,并根据所述相对位置距离结合临界距离对所述第二数据集中的三元组数据进行过滤,得到三元组数据集合,所述步骤S3具体包括:
将所述第二数据集中的每段对话中的实体进行排列组合形成多个实体对,在所述多个实体对中过滤出存在实体关系的实体对形成所述三元组数据;
计算所述第二数据集中的每段对话中的所述三元组数据中的两个实体所在的语句在对话中的相对位置距离;
将所述相对位置距离小于或等于所述临界距离的所述三元组数据形成所述三元组数据集合,其中,三元组数据就是具有实体关系的实体对,相对位置距离是指在第二数据集中标注有实体关系的实体对间的距离,临界距离的确定过程具体是:根据第二数据集中超过预设阈值比例的三元组数据的相对位置距离小于或等于临界距离进行确定临界距离;
S4,基于所述三元组数据集合对所述第二数据集中的每段对话进行拆分,得到至少包含所述三元组数据集合中一个三元组单元的一个对话片段,建立以所述对话片段和所述三元组单元作为最小训练单元的训练数据。
2.根据权利要求1所述的基于对话关系的训练数据处理方法,其特征在于,所述第一数据集中的语句已完成三元组关系标注。
3.根据权利要求1所述的基于对话关系的训练数据处理方法,其特征在于,所述词典包含肯定词或否定词。
4.根据权利要求1所述的基于对话关系的训练数据处理方法,其特征在于,所述步骤S2具体包括:
若所述实体类别与定义的实体类别比对上,则保留所述待识别语句并将所述待识别语句存入所述第二数据集;
若所述实体类别与定义的实体类别未比对上,则删除所述待识别语句。
5.根据权利要求1所述的基于对话关系的训练数据处理方法,其特征在于,还包括:对所述三元组数据设定规则进行过滤。
6.根据权利要求1所述的基于对话关系的训练数据处理方法,其特征在于,所述步骤S4中的所述对话片段中的第一句存在所述三元组单元的第一个实体,倒数第二句存在所述三元组单元的第二个实体。
7.根据权利要求1所述的基于对话关系的训练数据处理方法,其特征在于,所述对话片段与所述三元组单元建立映射关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110624573.1/1.html,转载请声明来源钻瓜专利网。





