[发明专利]一种基于深度学习的地铁设计规范中实体关系联合抽取方法在审

申请号：	202110218377.4	申请日：	2021-02-26
公开（公告）号：	CN112966512A	公开（公告）日：	2021-06-15
发明（设计）人：	黑新宏;李育璠;朱磊;王一川;姬文江;孟海宁;姜琨	申请（专利权）人：	西安理工大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F40/211;G06F40/242;G06K9/62;G06N3/02;G06Q50/26
代理公司：	西安弘理专利事务所 61214	代理人：	宁文涛
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习地铁设计规范实体关系联合抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的地铁设计规范中实体关系联合抽取方法，其特征在于，按照以下步骤实施：

步骤1，利用词典文件构建名词哈希词典索引，词典文件采用IFC实体类标准构建，之后将词典文件包含的所有实体类定义为实体类集合E，并定义关系类集合R；

步骤2，将待处理《地铁设计规范》的句子作为输入文本S1；

步骤3，对步骤2得到的输入文本S1进行正向最大匹配算法处理得到实体集C1_1，再对输入文本S1进行逆向最大匹配算法处理得到实体集C1_2，取C1_1与C1_2的交集得到实体集C1；

步骤4，将步骤2得到的输入文本S1输入经过预训练的BERT模型进行编码，得到输入文本的字嵌入集合S2；

步骤5，在步骤4字嵌入集合S2中选择文段，对所有选择的文段构造文段嵌入，通过卷积分类器进行实体分类过滤，得到实体集合C2；

步骤6，将步骤3中的实体集合C1与步骤5中的实体集合C2合并后得到实体集合C3；从C3中任意选择两个实体构成若干实体对，为实体对构造关系嵌入；经过卷积分类器分类得到实体对的双向关系r，并通过分类过滤，得到最终的实体关系集合C4。

2.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法，其特征在于：所述步骤5具体为：

对步骤4中得到的字嵌入集合S2在所有长度在1到10之间的跨度上选择文段，集合S2是通过BERT模型得到的文本向量表示(e₁,e₂,...,e_n)，即对于任意e_i，选择文段(e_i,e_i+1,e_i+2...e_i+k)，其中k取值在0到10之间，对于输入第一结果集C1的实体不予选择；利用语义嵌入、位置嵌入与上下文嵌入对所有选择的文段构造文段嵌入span_em，将span_em输入卷积分类器进行实体分类；对所有文段完成分类后，过滤结果中不属于已定义实体类集合E的实体；得到实体集合C2。

3.根据权利要求2所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法，其特征在于：所述步骤5中，文段嵌入部分的具体构造过程如下：

5.1)对于步骤5中选择的文段的字嵌入，进行最大池化得到向量span_max、进行平均池化得到向量span_ave、进行最小池化得到向量span_min。连接三个向量，得到词义嵌入

5.2)对于步骤5中选择的文段获取三个位置，即本文段的第一个字head、本文段的最后一个字end、整个句子的最后一个字last。字的位置为该字距本句子第一个字的距离，例如本句子第一个字的位置为0，第五个字的位置为4。利用三角函数位置编码方式，将head、end、last的位置分别编码为一个长度等同于字嵌入长度的向量P_head、P_end、P_last，连接三个向量，得到位置嵌入

5.3)获得步骤4中BERT模型输出的向量CLS作为上下文特征向量S1。之后对上一个句字与下一个句字以同样方式得到上下文特征向量S+1、S-1，对S+1与S-1做最大池化得到向量S2。之后，连接S1与S2得到上下文嵌入

5.4)连接步骤5.1)得到的词义嵌入M、步骤5.2)得到的位置嵌入P，步骤5.3)得到的上下文嵌入S，得到文段嵌入。

4.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法，其特征在于：所述步骤6具体为：

合并步骤3得到的实体集合C1与步骤5得到的实体集合C2，得到实体集合C3；从C3中任选两个实体以构造实体对，对所有可能的实体对，由其位置嵌入、字嵌入的最大池化、最小池化与平均池化组成关系嵌入，经过卷积分类器分类得到实体对的双向关系r；并对C3中的所有实体对按照已定义的关系类集合R进行关系分类，过滤结果中不属于已定义的关系类集合R的关系，得到最终的实体关系集合C4。

5.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法，其特征在于：所述步骤6中，构造关系嵌入部分的具体过程如下：

6.1)对于一个实体对(e₁,e₂)，设e₁的位置在e₂前方，则这两个实体将句子分为了5个部分，即e₁之前的部分、e₁、e₁与e₂之间的部分、e₂、e₂之后的部分，将这5个部分分别依次作为前文、实体1、关联、实体2、后文。

6.2)对于步骤6.1)中前文、实体1、关联、实体2、后文，分别对其词嵌入依照5.2)中的方法做最大池化、平均池化、最小池化，并连接得到词义嵌入M’。

6.3)按照5.3)中的方法，分别获得前文、实体1、关联、实体2、后文五个部分的最后一个字的位置嵌入P_end’，连接步骤6.2中的M’与P_end’，分别得到向量q₁、q₂、q₃、q₄、q₅。

6.4)q₁、q₂、q₃、q₄、q₅是长度相等的向量，将其竖向连接，得到最终的关系嵌入Q。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安理工大学，未经西安理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110218377.4/1.html，转载请声明来源钻瓜专利网。