[发明专利]实体关系分类方法、装置、介质及电子设备在审
申请号: | 201911304843.X | 申请日: | 2019-12-17 |
公开(公告)号: | CN112989032A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 王磊;吴新乐 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N20/00 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 分类 方法 装置 介质 电子设备 | ||
本公开提供一种实体关系分类方法、实体关系分类装置、计算机可读存储介质及电子设备;涉及文本处理技术领域。该实体关系分类方法包括:根据文本样本所属的类型,将目标类型的文本样本确定为源域数据,将除目标类型之外的候选类型的文本样本确定为候选域数据;将源域数据作为训练数据获得第一关系分类模型,并利用第一关系分类模型对候选域数据进行实体关系分类;根据实体关系分类的分类结果对第一关系分类模型再次进行训练,以获取目标关系分类模型,其中,目标关系分类模型用于对候选类型的文本进行实体关系分类。本公开中的实体关系分类方法能够在一定程度上克服由于文本数据域不同而导致模型训练成本较高的问题,进而提升分类的效率。
技术领域
本公开涉及文本处理技术领域,具体而言,涉及一种实体关系分类方法、实体关系分类装置、计算机可读介质及电子设备。
背景技术
在非结构化的原始文本中,通常利用关系抽取技术获取实体、关系三元组,进而通过三元组理解文本语义。关系分类是关系抽取过程中的重要部分,用于在命名实体识别之后确定实体之间的关系的类型。
通常,利用机器学习模型进行关系分类时,测试数据于训练数据的来源必须相同,如果测试数据与训练数据的来源不同,那么基于机器学习方法的封闭世界假设,在训练数据上训练得到的深度学习模型将不能直接用于测试数据上。然而,文本的来源复杂多样,不同领域的数据均需要独立训练模型,例如,试验数据、检查报告、诊断报告等,导致数据的标注工作成本非常高,因此,克服文本的领域偏差就变得非常重要。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种实体关系分类方法、实体关系分类装置、计算机可读介质及电子设备,进而在一定程度上克服文本的领域不同而导致数据标注工作成本高的问题,进而提升模型训练的效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种实体关系分类方法,包括:
根据文本样本所属的类型,将目标类型的文本样本确定为源域数据,将除所述目标类型之外的候选类型的文本样本确定为候选域数据;
将所述源域数据作为训练数据获得第一关系分类模型,并利用所述第一关系分类模型对所述候选域数据进行实体关系分类;
根据所述实体关系分类的分类结果对所述第一关系分类模型再次进行训练,以获取目标关系分类模型,其中,所述目标关系分类模型用于对所述候选类型的文本进行实体关系分类。
在本公开的一种示例性实施例中,所述根据文本样本所属的类型,将目标类型的文本样本确定为源域数据,将除所述目标类型之外的候选类型的文本样本确定为候选域数据,包括:
获取多种类型的文本样本;
根据所述文本样本所属的类型对所述文本样本进行分类,得到多个样本类;
确定各所述样本类中已标注的文本样本的数量,以获得各所述样本类的标注率;
根据各所述样本类的标注率,从所述多个样本类中确定目标样本类,以将所述目标样本类确定为源域数据,将不属于所述目标样本类的文本样本确定为候选域数据。
在本公开的一种示例性实施例中,所述将所述源域数据作为训练数据获得第一关系分类模型,包括:
将所述源域数据中已标注的文本样本作为训练数据获得所述第一关系分类模型。
在本公开的一种示例性实施例中,所述将所述源域数据作为训练数据获取第一关系分类模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911304843.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种家用电器
- 下一篇:一种显示设备、端口控制方法及存储介质