[发明专利]一种文本语言关联关系标注方法和装置有效
| 申请号: | 201910212664.7 | 申请日: | 2019-03-20 |
| 公开(公告)号: | CN111737951B | 公开(公告)日: | 2022-10-14 |
| 发明(设计)人: | 韩英;刘迪;王腾蛟;邱镇;陈薇;孟洪民 | 申请(专利权)人: | 北京大学;国网信息通信产业集团有限公司;国家电网有限公司;国网浙江省电力有限公司 |
| 主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/295 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100871 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 语言 关联 关系 标注 方法 装置 | ||
1.一种文本语言关联关系标注方法,其特征在于,包括以下步骤:
1)根据文本语言相关任务的需求,确定至少两种相关联的文本语言的信息抽取子任务;
2)分析文本语料,定义各信息抽取子任务的标签集;
3)联合各信息抽取子任务的标签集,形成复合标注体系;
4)根据复合标注体系对文本语料进行标注;
其中,步骤1)所述信息抽取子任务包括:命名实体识别子任务、命名实体标准化子任务、命名实体关系抽取子任务;
其中,步骤2)对于每个文本语言的信息抽取子任务,定义其在语料上对应的单独标注体系,每个信息抽取子任务对应一种标签集合,包含字符在实体中的位置、实体类型;
其中,步骤3)对有关联关系的信息抽取子任务,联合各信息抽取子任务的标签集,优化各信息抽取子任务的标签中的公共部分,形成复合标注体系,实现多任务的自然融合;
所述优化各信息抽取子任务的标签中的公共部分,包括:
对于命名实体识别与命名实体标准化这两个子任务的标签中都包含字符在实体中的位置信息的情况,在联合这两个子任务的标签时优化这个公共部分,使两个子任务共享实体位置信息。
2.一种采用权利要求1所述方法的文本语言关联关系标注装置,其特征在于,包括:
子任务确定模块,负责根据文本语言相关任务的需求,确定至少两种相关联的文本语言的信息抽取子任务;
标签集定义模块,负责分析文本语料,定义各信息抽取子任务的标签集;
标签联合模块,负责联合各信息抽取子任务的标签集,形成复合标注体系;
标注模块,负责根据复合标注体系对文本语料进行标注。
3.一种支持多任务的机器学习模型一体化训练方法,其特征在于,包括以下步骤:
(1)采用权利要求1所述方法,根据复合标注体系对文本语料进行标注,获得训练数据集与测试数据集;
(2)选定具体的机器学习模型;
(3)在预测阶段,根据复合标注体系对所述机器学习模型根据输入序列进行预测得到的标记序列进行译码,得到最终的标签预测结果;
(4)在所述机器学习模型的训练迭代过程中,在训练数据集上进行优化,同时在测试数据集上进行测试,当测试数据集上的结果下降时,停止训练。
4.如权利要求3所述的方法,其特征在于,通过所述复合标注体系将多个任务完全地融合在一起,实现一体化的训练,无需多阶段的各任务分开训练。
5.如权利要求3所述的方法,其特征在于,所述机器学习模型为传统的机器学习模型或者是基于深度神经网络的深度学习模型,所述传统的机器学习模型包括条件随机场、隐形马尔科夫或者其他基于概率图的模型。
6.如权利要求3所述的方法,其特征在于,所述译码根据就近原则抽取实体关系。
7.一种支持多任务的机器学习模型一体化训练装置,其特征在于,包括:
数据准备模块,负责采用权利要求1所述方法,根据复合标注体系对文本语料进行标注,获得训练数据集与测试数据集;
模型选择模块,负责选定具体的机器学习模型;
译码模块,负责在预测阶段,根据复合标注体系对所述机器学习模型根据输入序列进行预测得到的标记序列进行译码,得到最终的标签预测结果;
训练模块,负责在所述机器学习模型的训练迭代过程中,在训练数据集上进行优化,同时在测试数据集上进行测试,当测试数据集上的结果下降时,停止训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;国网信息通信产业集团有限公司;国家电网有限公司;国网浙江省电力有限公司,未经北京大学;国网信息通信产业集团有限公司;国家电网有限公司;国网浙江省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910212664.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抗癌的药物组合物及其制备方法
- 下一篇:一种气雾产生装置及气雾产生系统





