[发明专利]实体关系分类方法、装置、介质及电子设备在审

申请号：	201911304843.X	申请日：	2019-12-17
公开（公告）号：	CN112989032A	公开（公告）日：	2021-06-18
发明（设计）人：	王磊;吴新乐	申请（专利权）人：	医渡云（北京）技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N20/00
代理公司：	北京律智知识产权代理有限公司 11438	代理人：	王辉;阚梓瑄
地址：	100191 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体关系分类方法装置介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供一种实体关系分类方法、实体关系分类装置、计算机可读存储介质及电子设备；涉及文本处理技术领域。该实体关系分类方法包括：根据文本样本所属的类型，将目标类型的文本样本确定为源域数据，将除目标类型之外的候选类型的文本样本确定为候选域数据；将源域数据作为训练数据获得第一关系分类模型，并利用第一关系分类模型对候选域数据进行实体关系分类；根据实体关系分类的分类结果对第一关系分类模型再次进行训练，以获取目标关系分类模型，其中，目标关系分类模型用于对候选类型的文本进行实体关系分类。本公开中的实体关系分类方法能够在一定程度上克服由于文本数据域不同而导致模型训练成本较高的问题，进而提升分类的效率。

技术领域

本公开涉及文本处理技术领域，具体而言，涉及一种实体关系分类方法、实体关系分类装置、计算机可读介质及电子设备。

背景技术

在非结构化的原始文本中，通常利用关系抽取技术获取实体、关系三元组，进而通过三元组理解文本语义。关系分类是关系抽取过程中的重要部分，用于在命名实体识别之后确定实体之间的关系的类型。

通常，利用机器学习模型进行关系分类时，测试数据于训练数据的来源必须相同，如果测试数据与训练数据的来源不同，那么基于机器学习方法的封闭世界假设，在训练数据上训练得到的深度学习模型将不能直接用于测试数据上。然而，文本的来源复杂多样，不同领域的数据均需要独立训练模型，例如，试验数据、检查报告、诊断报告等，导致数据的标注工作成本非常高，因此，克服文本的领域偏差就变得非常重要。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种实体关系分类方法、实体关系分类装置、计算机可读介质及电子设备，进而在一定程度上克服文本的领域不同而导致数据标注工作成本高的问题，进而提升模型训练的效率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种实体关系分类方法，包括：

根据文本样本所属的类型，将目标类型的文本样本确定为源域数据，将除所述目标类型之外的候选类型的文本样本确定为候选域数据；

将所述源域数据作为训练数据获得第一关系分类模型，并利用所述第一关系分类模型对所述候选域数据进行实体关系分类；

根据所述实体关系分类的分类结果对所述第一关系分类模型再次进行训练，以获取目标关系分类模型，其中，所述目标关系分类模型用于对所述候选类型的文本进行实体关系分类。

在本公开的一种示例性实施例中，所述根据文本样本所属的类型，将目标类型的文本样本确定为源域数据，将除所述目标类型之外的候选类型的文本样本确定为候选域数据，包括：

获取多种类型的文本样本；

根据所述文本样本所属的类型对所述文本样本进行分类，得到多个样本类；

确定各所述样本类中已标注的文本样本的数量，以获得各所述样本类的标注率；