[发明专利]一种基于深度学习的地铁设计规范中实体关系联合抽取方法在审

专利信息
申请号: 202110218377.4 申请日: 2021-02-26
公开(公告)号: CN112966512A 公开(公告)日: 2021-06-15
发明(设计)人: 黑新宏;李育璠;朱磊;王一川;姬文江;孟海宁;姜琨 申请(专利权)人: 西安理工大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F40/211;G06F40/242;G06K9/62;G06N3/02;G06Q50/26
代理公司: 西安弘理专利事务所 61214 代理人: 宁文涛
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 地铁 设计规范 实体 关系 联合 抽取 方法
【权利要求书】:

1.一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于,按照以下步骤实施:

步骤1,利用词典文件构建名词哈希词典索引,词典文件采用IFC实体类标准构建,之后将词典文件包含的所有实体类定义为实体类集合E,并定义关系类集合R;

步骤2,将待处理《地铁设计规范》的句子作为输入文本S1;

步骤3,对步骤2得到的输入文本S1进行正向最大匹配算法处理得到实体集C1_1,再对输入文本S1进行逆向最大匹配算法处理得到实体集C1_2,取C1_1与C1_2的交集得到实体集C1;

步骤4,将步骤2得到的输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集合S2;

步骤5,在步骤4字嵌入集合S2中选择文段,对所有选择的文段构造文段嵌入,通过卷积分类器进行实体分类过滤,得到实体集合C2;

步骤6,将步骤3中的实体集合C1与步骤5中的实体集合C2合并后得到实体集合C3;从C3中任意选择两个实体构成若干实体对,为实体对构造关系嵌入;经过卷积分类器分类得到实体对的双向关系r,并通过分类过滤,得到最终的实体关系集合C4。

2.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤5具体为:

对步骤4中得到的字嵌入集合S2在所有长度在1到10之间的跨度上选择文段,集合S2是通过BERT模型得到的文本向量表示(e1,e2,...,en),即对于任意ei,选择文段(ei,ei+1,ei+2...ei+k),其中k取值在0到10之间,对于输入第一结果集C1的实体不予选择;利用语义嵌入、位置嵌入与上下文嵌入对所有选择的文段构造文段嵌入span_em,将span_em输入卷积分类器进行实体分类;对所有文段完成分类后,过滤结果中不属于已定义实体类集合E的实体;得到实体集合C2。

3.根据权利要求2所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤5中,文段嵌入部分的具体构造过程如下:

5.1)对于步骤5中选择的文段的字嵌入,进行最大池化得到向量span_max、进行平均池化得到向量span_ave、进行最小池化得到向量span_min。连接三个向量,得到词义嵌入

5.2)对于步骤5中选择的文段获取三个位置,即本文段的第一个字head、本文段的最后一个字end、整个句子的最后一个字last。字的位置为该字距本句子第一个字的距离,例如本句子第一个字的位置为0,第五个字的位置为4。利用三角函数位置编码方式,将head、end、last的位置分别编码为一个长度等同于字嵌入长度的向量Phead、Pend、Plast,连接三个向量,得到位置嵌入

5.3)获得步骤4中BERT模型输出的向量CLS作为上下文特征向量S1。之后对上一个句字与下一个句字以同样方式得到上下文特征向量S+1、S-1,对S+1与S-1做最大池化得到向量S2。之后,连接S1与S2得到上下文嵌入

5.4)连接步骤5.1)得到的词义嵌入M、步骤5.2)得到的位置嵌入P,步骤5.3)得到的上下文嵌入S,得到文段嵌入。

4.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤6具体为:

合并步骤3得到的实体集合C1与步骤5得到的实体集合C2,得到实体集合C3;从C3中任选两个实体以构造实体对,对所有可能的实体对,由其位置嵌入、字嵌入的最大池化、最小池化与平均池化组成关系嵌入,经过卷积分类器分类得到实体对的双向关系r;并对C3中的所有实体对按照已定义的关系类集合R进行关系分类,过滤结果中不属于已定义的关系类集合R的关系,得到最终的实体关系集合C4。

5.根据权利要求1所述的一种基于深度学习的地铁设计规范中实体关系联合抽取方法,其特征在于:所述步骤6中,构造关系嵌入部分的具体过程如下:

6.1)对于一个实体对(e1,e2),设e1的位置在e2前方,则这两个实体将句子分为了5个部分,即e1之前的部分、e1、e1与e2之间的部分、e2、e2之后的部分,将这5个部分分别依次作为前文、实体1、关联、实体2、后文。

6.2)对于步骤6.1)中前文、实体1、关联、实体2、后文,分别对其词嵌入依照5.2)中的方法做最大池化、平均池化、最小池化,并连接得到词义嵌入M’。

6.3)按照5.3)中的方法,分别获得前文、实体1、关联、实体2、后文五个部分的最后一个字的位置嵌入Pend’,连接步骤6.2中的M’与Pend’,分别得到向量q1、q2、q3、q4、q5

6.4)q1、q2、q3、q4、q5是长度相等的向量,将其竖向连接,得到最终的关系嵌入Q。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110218377.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top