[发明专利]一种基于深度学习的地铁设计规范中实体关系联合抽取方法在审
申请号: | 202110218377.4 | 申请日: | 2021-02-26 |
公开(公告)号: | CN112966512A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 黑新宏;李育璠;朱磊;王一川;姬文江;孟海宁;姜琨 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/211;G06F40/242;G06K9/62;G06N3/02;G06Q50/26 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 宁文涛 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 地铁 设计规范 实体 关系 联合 抽取 方法 | ||
1.一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于,按照以下步骤实施:
步骤1,利用词典文件构建名词哈希词典索引,词典文件采用IFC实体类标准构建,之后将词典文件包含的所有实体类定义为实体类集合E,并定义关系类集合R;
步骤2,将待处理《地铁设计规范》的句子作为输入文本S1;
步骤3,对步骤2得到的输入文本S1进行正向最大匹配算法处理得到实体集C1_1,再对输入文本S1进行逆向最大匹配算法处理得到实体集C1_2,取C1_1与C1_2的交集得到实体集C1;
步骤4,将步骤2得到的输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集合S2;
步骤5,在步骤4字嵌入集合S2中选择文段,对所有选择的文段构造文段嵌入,通过卷积分类器进行实体分类过滤,得到实体集合C2;
步骤6,将步骤3中的实体集合C1与步骤5中的实体集合C2合并后得到实体集合C3;从C3中任意选择两个实体构成若干实体对,为实体对构造关系嵌入;经过卷积分类器分类得到实体对的双向关系r,并通过分类过滤,得到最终的实体关系集合C4。
2.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤5具体为:
对步骤4中得到的字嵌入集合S2在所有长度在1到10之间的跨度上选择文段,集合S2是通过BERT模型得到的文本向量表示(e1,e2,...,en),即对于任意ei,选择文段(ei,ei+1,ei+2...ei+k),其中k取值在0到10之间,对于输入第一结果集C1的实体不予选择;利用语义嵌入、位置嵌入与上下文嵌入对所有选择的文段构造文段嵌入span_em,将span_em输入卷积分类器进行实体分类;对所有文段完成分类后,过滤结果中不属于已定义实体类集合E的实体;得到实体集合C2。
3.根据权利要求2所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤5中,文段嵌入部分的具体构造过程如下:
5.1)对于步骤5中选择的文段的字嵌入,进行最大池化得到向量span_max、进行平均池化得到向量span_ave、进行最小池化得到向量span_min。连接三个向量,得到词义嵌入
5.2)对于步骤5中选择的文段获取三个位置,即本文段的第一个字head、本文段的最后一个字end、整个句子的最后一个字last。字的位置为该字距本句子第一个字的距离,例如本句子第一个字的位置为0,第五个字的位置为4。利用三角函数位置编码方式,将head、end、last的位置分别编码为一个长度等同于字嵌入长度的向量Phead、Pend、Plast,连接三个向量,得到位置嵌入
5.3)获得步骤4中BERT模型输出的向量CLS作为上下文特征向量S1。之后对上一个句字与下一个句字以同样方式得到上下文特征向量S+1、S-1,对S+1与S-1做最大池化得到向量S2。之后,连接S1与S2得到上下文嵌入
5.4)连接步骤5.1)得到的词义嵌入M、步骤5.2)得到的位置嵌入P,步骤5.3)得到的上下文嵌入S,得到文段嵌入。
4.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤6具体为:
合并步骤3得到的实体集合C1与步骤5得到的实体集合C2,得到实体集合C3;从C3中任选两个实体以构造实体对,对所有可能的实体对,由其位置嵌入、字嵌入的最大池化、最小池化与平均池化组成关系嵌入,经过卷积分类器分类得到实体对的双向关系r;并对C3中的所有实体对按照已定义的关系类集合R进行关系分类,过滤结果中不属于已定义的关系类集合R的关系,得到最终的实体关系集合C4。
5.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤6中,构造关系嵌入部分的具体过程如下:
6.1)对于一个实体对(e1,e2),设e1的位置在e2前方,则这两个实体将句子分为了5个部分,即e1之前的部分、e1、e1与e2之间的部分、e2、e2之后的部分,将这5个部分分别依次作为前文、实体1、关联、实体2、后文。
6.2)对于步骤6.1)中前文、实体1、关联、实体2、后文,分别对其词嵌入依照5.2)中的方法做最大池化、平均池化、最小池化,并连接得到词义嵌入M’。
6.3)按照5.3)中的方法,分别获得前文、实体1、关联、实体2、后文五个部分的最后一个字的位置嵌入Pend’,连接步骤6.2中的M’与Pend’,分别得到向量q1、q2、q3、q4、q5。
6.4)q1、q2、q3、q4、q5是长度相等的向量,将其竖向连接,得到最终的关系嵌入Q。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110218377.4/1.html,转载请声明来源钻瓜专利网。