[发明专利]一种基于实体和关系联合学习的矿工违规行为知识抽取方法在审

申请号：	202111564215.2	申请日：	2021-12-20
公开（公告）号：	CN114239574A	公开（公告）日：	2022-03-25
发明（设计）人：	史新国;刘柯;冯仕民;刘业献;翟勃;谢亚波;王卫龙	申请（专利权）人：	淄博矿业集团有限责任公司;徐州工程学院
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/295;G06N3/04
代理公司：	徐州千秋知识产权代理事务所(普通合伙) 32556	代理人：	李翩
地址：	255120 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于实体关系联合学习矿工违规行为知识抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于实体和关系联合学习的矿工违规行为知识抽取方法，其特征在于，包括如下步骤：

S1：数据标注：标注输入句子中的实体以及实体之间的关系，从而得到三元组结果；

S2：预处理：在模型训练前对训练数据进行jieba分词处理；

S3：投影：为丰富句子的语义信息，通过三种分布式模型，对分词处理后的训练数据进行编码；

S4：设计网络模型，学习训练数据的嵌套结构及与标签间的潜在依存关系：提出增强模型，增强模型在原始模型的基础上将双向LSTM嵌入于自注意力机制中，以更好的提取文本与标签的时序特征，无需对样本与标签特征进行编码与解码的单独学习，而是使用深层网络学习文本特征，使用最大似然得到序列的标签；

S5：将文本与标签一同作为网络输入进行特征提取，为探究深度模型对依赖特征学习的性能，分别使用CRF层与Softmax层对实体进行分类。

2.根据权利要求1所述的基于实体和关系联合学习的矿工违规行为知识抽取方法，其特征在于，步骤S3具体包括：

S31：使用Word to Vector对分词处理结果进行映射得到字向量与词向量并进行联合训练，为提升低频词表示的准确率，将更细粒度的字向量引入词表示中，与词向量一同使用改进的Continuous Bag-Of-Words模型联合训练出新的词表示模型；

S32：为学习词级的上下文信息及句子结构信息，使用Fasttext训练词向量；

S33：为学习词间共现信息，使用全局词向量对词进行分布式学习；

S34：提取相对位置信息：使用注意力机制对特征进行提取，而注意力机制本身无法区分不同的位置特征，因此加入每一个字的位置编码信息；

S35：将步骤S31、S32、S33得到的向量进行串联并加入步骤S34的位置编码信息，生成新的投影向量，为避免由于信息重复抽取导致的数据偏移，在拼接好的向量后加入全连接层，引入一个权重矩阵，对输入进行降维；在全连接层后加入dropout层，以一定概率临时扔掉一些神经元节点，从而使得每次都在训练不同结构的网络。

3.根据权利要求2所述的基于实体和关系联合学习的矿工违规行为知识抽取方法，其特征在于，步骤S31中Continuous Bag-Of-Words模型改进公式如下：

其中，x_j为输出，w_j为权重，N_j为文本中的中文数量，c_k为字编码，系数保证了字向量与词向量计算词语距离的一致性，为了简化模型，仅对上下文部分引入字向量信息，即最终的target信息是由字向量与词向量的组合信息预测得到。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于淄博矿业集团有限责任公司;徐州工程学院，未经淄博矿业集团有限责任公司;徐州工程学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111564215.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种全兼容油气润滑油及其生产方法
下一篇：业务推荐方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于实体和关系联合学习的矿工违规行为知识抽取方法在审

专利文献下载