[发明专利]基于深度学习的轨道交通规范关系抽取方法有效
| 申请号: | 202010355573.1 | 申请日: | 2020-04-29 |
| 公开(公告)号: | CN111597420B | 公开(公告)日: | 2023-06-02 |
| 发明(设计)人: | 黑新宏;董林靖;朱磊;赵钦;王一川;姚燕妮;焦瑞;方潇颖;彭伟 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/103;G06F40/242;G06F40/279;G06F16/35;G06N3/08 |
| 代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王丹 |
| 地址: | 710048 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 轨道交通 规范 关系 抽取 方法 | ||
1.基于深度学习的轨道交通规范关系抽取方法,其特征在于,包括获取带有人工标注的有标签数据,对标签数据进行规范向量表示,将向量化数据输入到GRU模型中进行实体和实体间关系特征提取,对提取的实体和实体间关系进行训练,生成实体识别模型和实体间关系抽取模型,使用Softmax和Cross-Entropy函数结合的方式对提取的实体间关系特征进行关系分类,评估关系分类结果,根据未分类成功的实体间关系更新实体间关系抽取模型,将待检测轨道交通规范语料输入实体间关系抽取模型中,即输出待检测轨道交通规范语料中的实体间关系;
具体包括以下步骤:
步骤1:采用网络爬虫技术获取轨道交通规范语料,删除规范语料中多余信息,对规范语料进行规范化处理;
步骤2:从规范化处理后的规范语料中选出多个随机样本,标注每个随机样本中实体与实体间关系;(即获得有标签数据)
步骤3:对标注过实体的规范语料进行预处理,生成实体训练集;对标注的实体进行聚类处理,定义实体类型,生成实体词典;
步骤4:将实体训练集输入到Bert模型中进行预训练,生成文本特征向量,将文本特征向量输入到Bi-LSTM+CRF模型中,生成实体识别模型;
步骤5:对标注过实体间关系的规范语料进行预处理,生成实体间关系抽取训练集;对标记过的实体间关系进行聚类处理,生成关系词典;
步骤6:将实体间关系抽取训练集输入到Bert+GRU+CRF模型中进行训练,生成实体间关系抽取模型;
步骤7:将步骤1获取的所有轨道交通规范语料输入到GRU神经网络模型中,对轨道交通规范语料进行实体标记,两两组成实体对,对实体对进行关系抽取,得到原始轨道交通规范语料中的实体和实体间关系;
步骤8:对未分类成功的实体和未抽取成功的实体间关系进行判断,更新实体词典、关系词典和实体间关系抽取模型;
步骤9:将待测试轨道交通规范语料输入到更新后的实体间关系抽取模型中,即输出待测试轨道交通规范中实体间关系。
2.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法,其特征在于,所述有标签数据为标注有实体与实体间关系的轨道交通规范语料。
3.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法,其特征在于,所述步骤2中,人工标注每个随机样本中实体与实体间关系。
4.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法,其特征在于,所述步骤3中,人为定义实体类型,生成实体词典。
5.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法,其特征在于,所述步骤4的具体过程如下:
步骤4.1:将实体训练集输入到Bert模型中,Bert模型按行读取实体训练集,并输出每个字符串的字向量;
步骤4.2:Bert模型将实体训练集中每一个字转化为一维向量,得到一个句子的段向量位置向量,再将段向量位置向量作为深度学习模型的输入,最后输出融合全文语义信息的文本特征向量;
步骤4.3:将文本特征向量输入到Bi-LSTM+CRF模型中,生成实体识别模型。
6.根据权利要求1所述的基于深度学习的轨道交通规范关系抽取方法,其特征在于,所述步骤6的具体过程如下:
步骤6.1:将实体间关系抽取训练集输入到Bert模型进行预训练,生成训练集向量;
步骤6.2:将训练集向量输入到GRU模型中进行神经网络训练,生成特征矩阵;
步骤6.3:将特征矩阵输入到CRF模型中,CRF模型通过识别标签之间的相邻关系得到概率最大的标签序列,生成实体间关系抽取模型。
7.根据权利要求6所述的基于深度学习的轨道交通规范关系抽取方法,其特征在于,所述步骤6.2中,将向量化表示的实体和训练集向量一并输入到GRU模型中进行神经网络训练,生成特征矩阵;向量化表示的实体为向量化表示的步骤1中轨道交通规范语料中实体,步骤1中轨道交通规范语料中实体通过实体识别模型获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010355573.1/1.html,转载请声明来源钻瓜专利网。





