[发明专利]一种基于实体和关系联合学习的矿工违规行为知识抽取方法在审
申请号: | 202111564215.2 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114239574A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 史新国;刘柯;冯仕民;刘业献;翟勃;谢亚波;王卫龙 | 申请(专利权)人: | 淄博矿业集团有限责任公司;徐州工程学院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06N3/04 |
代理公司: | 徐州千秋知识产权代理事务所(普通合伙) 32556 | 代理人: | 李翩 |
地址: | 255120 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 关系 联合 学习 矿工 违规行为 知识 抽取 方法 | ||
本发明公开了一种基于实体和关系联合学习的矿工违规行为知识抽取方法,包括:数据标注,识别输入句子中的实体以及实体之间的关系,从而得到三元组结果;预处理,在模型训练前对训练数据进行分词处理;投影,为丰富句子的语义信息,通过三种分布式模型,对输入语句进行编码;设计网络模型,学习输入语料的嵌套结构及与标签间的潜在依存关系;将文本与标签一同作为网络输入进行特征提取,分别使用CRF层与Softmax层对实体进行分类。本发明通过对实体识别和关系抽取两个任务进行共同学习,在不同任务的学习过程中共享学习参数与特征信息,优化知识抽取效果。
技术领域
本发明涉及煤矿勘探开发技术领域,具体涉及一种基于实体和关系联合学习的矿工违规行为知识抽取方法。
背景技术
目前煤矿主要以文档等非结构化数据形式存储矿工违规行为知识,计算机无法理解这些知识,因此不能够被计算机用于矿工违规行为识别。手动整合这些专业性的资料与文献,工程量巨大。
命名实体识别是知识抽取任务的初始步骤。目前,对命名实体识别的研究已有很多,但与通用领域相比,矿工违规行为领域的资料由于包含煤矿地理信息以及大量专有名词,其信息抽取任务难点在于命名实体具有一词多义或多词同义的现象,并且不同的命名实体间存在一定语义关系,这些语义关系对实体识别有很大影响。矿工违规行为领域的命名实体识别任务,依然面临极大挑战。传统的基于规则与统计的方法需要人工提取特征,虽然相较于手动抽取实体的方式有所改进,但仍耗费大量的时间与人力,且特征的选择决定着模型的上限。随着深度网络模型在自然语言处理方面的巨大成功,促使大量命名实体识别开始使用不依赖专家构造特征的深度学习技术从非结构化的文本中自动识别出实体。但对矿工违规行为领域的强领域性文本来说,不同的模型的设计方式会对识别效果产生不同影响。
在知识抽取任务中,命名实体识别可提供文本中术语相关的信息,但提供的信息较为有限,而实体间关系蕴含着大量的知识以及丰富的语义信息,故关系抽取在知识抽取中常常承接在实体识别任务之后。目前深度学习已应用于关系抽取领域。卷积神经网络在时序特征的提取上略有欠缺。循环神经网络通过更改神经元之间的连接方式以及基于时间的反向传播算法解决了神经网络对时序特征提取上的不足,但无法并行化,传播相对卷积网络较为耗时。关于关系抽取的研究目前大部分停留在基于命名实体识别的结果之上,故命名实体识别的错误会传播至关系抽取任务中,实体间的关系信息会对实体的识别具有一定影响,而单纯的实体识别,忽略了两个子任务之间的交互信息。
目前,大多机器学习研究都针对于某一个特定的任务,构建特定的学习模型从而解决该特定任务。但许多任务并不是完全独立的,他们之间具有丰富的关联信息。以命名实体识别与关系抽取为例,大多数研究者将这两个任务视为两个独立的子任务分别进行特征提取与识别,忽略了二者间的共享信息,并易导致错误传播等问题。
发明内容
为了克服知识抽取任务中错误传播问题,本发明提供一种基于实体和关系联合学习的矿工违规行为知识抽取方法,联合学习通过一个模型,对实体识别和关系抽取两个任务进行共同学习,在不同任务的学习过程中共享学习参数与特征信息,优化知识抽取效果。为了实现上述技术目的,本发明采用如下技术方案:
一种基于实体和关系联合学习的矿工违规行为知识抽取方法,包括如下步骤:
S1:数据标注:标注输入句子中的实体以及实体之间的关系,从而得到三元组结果;
S2:预处理:在模型训练前对训练数据进行jieba分词处理;
S3:投影:为丰富句子的语义信息,通过三种分布式模型,对分词处理后的训练数据进行编码;
S4:设计网络模型,学习训练数据的嵌套结构及与标签间的潜在依存关系:提出增强模型,增强模型在原始模型的基础上将双向LSTM嵌入于自注意力机制中,以更好的提取文本与标签的时序特征,无需对样本与标签特征进行编码与解码的单独学习,而是使用深层网络学习文本特征,使用最大似然得到序列的标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淄博矿业集团有限责任公司;徐州工程学院,未经淄博矿业集团有限责任公司;徐州工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111564215.2/2.html,转载请声明来源钻瓜专利网。