[发明专利]一种基于深度学习的地铁设计规范中实体关系联合抽取方法在审
申请号: | 202110218377.4 | 申请日: | 2021-02-26 |
公开(公告)号: | CN112966512A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 黑新宏;李育璠;朱磊;王一川;姬文江;孟海宁;姜琨 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/211;G06F40/242;G06K9/62;G06N3/02;G06Q50/26 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 宁文涛 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 地铁 设计规范 实体 关系 联合 抽取 方法 | ||
本发明公开了一种基于深度学习的地铁设计规范中实体关系联合抽取方法,利用词典文件构建名词哈希词典索引;将待处理《地铁设计规范》文本作为输入文本S1;对输入文本S1进行正向与逆向最大匹配算法处理并求二者结果的交集得到C1;将输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集合S2;对步骤4中得到的S2基于跨度选择文段进行实体抽取,对已存在于C1中的实体不进行处理;合并实体集合C1与C2,得到实体集合C3,对C3中的实体两两之间进行双向关系分类,得到实体关系集合C4。本发明的方法,识别准确率高,计算精简,便于应用。
技术领域
本发明属于计算机自然语言处理技术领域,涉及一种基于深度学习的地铁设计规范中实体关系联合抽取方法。
背景技术
随着大数据的兴起,面对海量数据信息如何正确合理利用是大数据分析的关键所在。而知识图谱可以将结构化、半结构化数据用图的方式表示出来,从而简化知识,方便数据的进一步处理利用。
地铁是新兴的建筑行业,由于地铁设计规范多为文本形式表示,其陈述结构也与知识图谱表示相契合,故可利用知识图谱来对地铁设计规范进行知识表示,从而推动轨道交通行业信息化进程。
实体关系抽取是建立知识图谱的关键任务之一。实体关系抽取是级联任务,分为实体抽取和关系抽取两个子任务,如何更好地处理这种级联任务是自然语言处理的一个热点研究方向。传统的实体关系抽取多使用PIPline方法,即先抽取实体再抽取关系,虽然该类方法易于实现,实体模型和关系模型可以使用独立的数据集,但存在误差积累、实体冗余、交互缺失等缺点。针对地铁规范中实体与关系的联合抽取方法可以解决这些问题。目前,关于实体关系联合抽取方法的专利还存在大量空白。
发明内容
本发明的目的是提供一种基于深度学习的地铁设计规范中实体关系联合抽取方法,解决了现有技术中实体关系抽取方法无法识别嵌套实体、实体与关系分类不准确的问题。
本发明所采用的技术方案是,一种基于深度学习的地铁设计规范中实体关系联合抽取方法,按照以下步骤实施:
步骤1,利用词典文件构建名词哈希词典索引,词典文件采用IFC实体类标准构建,之后将词典文件包含的所有实体类定义为实体类集合E,并定义关系类集合R;
步骤2,将待处理《地铁设计规范》的句子作为输入文本S1;
步骤3,对步骤2得到的输入文本S1进行正向最大匹配算法处理得到实体集C1_1,再对输入文本S1进行逆向最大匹配算法处理得到实体集C1_2,取C1_1与C1_2的交集得到实体集C1;
步骤4,将步骤2得到的输入文本S1输入经过预训练的BERT模型进行编码,得到输入文本的字嵌入集合S2;
步骤5,在步骤4字嵌入集合S2中选择文段,对所有选择的文段构造文段嵌入,通过卷积分类器进行实体分类过滤,得到实体集合C2;
步骤6,将步骤3中的实体集合C1与步骤5中的实体集合C2合并后得到实体集合C3;从C3中任意选择两个实体构成若干实体对,为实体对构造关系嵌入;经过卷积分类器分类得到实体对的双向关系r,并通过分类过滤,得到最终的实体关系集合C4。
步骤5具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110218377.4/2.html,转载请声明来源钻瓜专利网。