[发明专利]一种文本语言关联关系标注方法和装置有效

专利信息
申请号: 201910212664.7 申请日: 2019-03-20
公开(公告)号: CN111737951B 公开(公告)日: 2022-10-14
发明(设计)人: 韩英;刘迪;王腾蛟;邱镇;陈薇;孟洪民 申请(专利权)人: 北京大学;国网信息通信产业集团有限公司;国家电网有限公司;国网浙江省电力有限公司
主分类号: G06F40/117 分类号: G06F40/117;G06F40/295
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100871 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 语言 关联 关系 标注 方法 装置
【权利要求书】:

1.一种文本语言关联关系标注方法,其特征在于,包括以下步骤:

1)根据文本语言相关任务的需求,确定至少两种相关联的文本语言的信息抽取子任务;

2)分析文本语料,定义各信息抽取子任务的标签集;

3)联合各信息抽取子任务的标签集,形成复合标注体系;

4)根据复合标注体系对文本语料进行标注;

其中,步骤1)所述信息抽取子任务包括:命名实体识别子任务、命名实体标准化子任务、命名实体关系抽取子任务;

其中,步骤2)对于每个文本语言的信息抽取子任务,定义其在语料上对应的单独标注体系,每个信息抽取子任务对应一种标签集合,包含字符在实体中的位置、实体类型;

其中,步骤3)对有关联关系的信息抽取子任务,联合各信息抽取子任务的标签集,优化各信息抽取子任务的标签中的公共部分,形成复合标注体系,实现多任务的自然融合;

所述优化各信息抽取子任务的标签中的公共部分,包括:

对于命名实体识别与命名实体标准化这两个子任务的标签中都包含字符在实体中的位置信息的情况,在联合这两个子任务的标签时优化这个公共部分,使两个子任务共享实体位置信息。

2.一种采用权利要求1所述方法的文本语言关联关系标注装置,其特征在于,包括:

子任务确定模块,负责根据文本语言相关任务的需求,确定至少两种相关联的文本语言的信息抽取子任务;

标签集定义模块,负责分析文本语料,定义各信息抽取子任务的标签集;

标签联合模块,负责联合各信息抽取子任务的标签集,形成复合标注体系;

标注模块,负责根据复合标注体系对文本语料进行标注。

3.一种支持多任务的机器学习模型一体化训练方法,其特征在于,包括以下步骤:

(1)采用权利要求1所述方法,根据复合标注体系对文本语料进行标注,获得训练数据集与测试数据集;

(2)选定具体的机器学习模型;

(3)在预测阶段,根据复合标注体系对所述机器学习模型根据输入序列进行预测得到的标记序列进行译码,得到最终的标签预测结果;

(4)在所述机器学习模型的训练迭代过程中,在训练数据集上进行优化,同时在测试数据集上进行测试,当测试数据集上的结果下降时,停止训练。

4.如权利要求3所述的方法,其特征在于,通过所述复合标注体系将多个任务完全地融合在一起,实现一体化的训练,无需多阶段的各任务分开训练。

5.如权利要求3所述的方法,其特征在于,所述机器学习模型为传统的机器学习模型或者是基于深度神经网络的深度学习模型,所述传统的机器学习模型包括条件随机场、隐形马尔科夫或者其他基于概率图的模型。

6.如权利要求3所述的方法,其特征在于,所述译码根据就近原则抽取实体关系。

7.一种支持多任务的机器学习模型一体化训练装置,其特征在于,包括:

数据准备模块,负责采用权利要求1所述方法,根据复合标注体系对文本语料进行标注,获得训练数据集与测试数据集;

模型选择模块,负责选定具体的机器学习模型;

译码模块,负责在预测阶段,根据复合标注体系对所述机器学习模型根据输入序列进行预测得到的标记序列进行译码,得到最终的标签预测结果;

训练模块,负责在所述机器学习模型的训练迭代过程中,在训练数据集上进行优化,同时在测试数据集上进行测试,当测试数据集上的结果下降时,停止训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;国网信息通信产业集团有限公司;国家电网有限公司;国网浙江省电力有限公司,未经北京大学;国网信息通信产业集团有限公司;国家电网有限公司;国网浙江省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910212664.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top