[发明专利]基于深度学习的轨道交通规范关系抽取方法有效
| 申请号: | 202010355573.1 | 申请日: | 2020-04-29 |
| 公开(公告)号: | CN111597420B | 公开(公告)日: | 2023-06-02 |
| 发明(设计)人: | 黑新宏;董林靖;朱磊;赵钦;王一川;姚燕妮;焦瑞;方潇颖;彭伟 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/103;G06F40/242;G06F40/279;G06F16/35;G06N3/08 |
| 代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王丹 |
| 地址: | 710048 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 轨道交通 规范 关系 抽取 方法 | ||
本发明基于深度学习的轨道交通规范关系抽取方法,包括获取带有人工标注的有标签数据,对标签数据进行规范向量表示,将向量化数据输入到GRU模型中进行实体和实体间关系特征提取,对提取的实体和实体间关系进行训练,生成实体识别模型和实体间关系抽取模型,使用Softmax和Cross‑Entropy函数结合的方式对提取的实体间关系特征进行关系分类,评估关系分类结果,根据未分类成功的实体间关系优化实体间关系抽取模型,将待检测轨道交通规范语料输入实体间关系抽取模型中,即输出待检测轨道交通规范语料中的实体间关系。采用本方法能够抽取中文轨道交通设计规范中实体间关系,从而提高建筑领域从业人员对轨道交通规范的查询速率。
技术领域
本发明属于人工智能自然语言处理技术领域,涉及一种基于深度学习的轨道交通规范关系抽取方法。
背景技术
伴随着我国社会生产力的发展、科学技术的进步以及产业结构的调整,城镇化进程不断推进,城市的基础设施尤其是城市轨道交通设施与城镇化发展密切相关。建设城市轨道交通系统将成为我国城镇化过程中城市公共交通的发展方向,是符合城镇化发展需要的。城市轨道交通工程设计规范是国内第一部关于轨道交通工程设计的地方标准,该规范注重“人文、绿色、科技”三大理念,落实“安全型、服务型、环境友好型、节能型、快捷高效型、网络化、国产化、标准化”等八项要求,较全面的对城市轨道交通建设提供了标准要求。在轨道建设过程中,为了保证施工符合要求,需要建筑者不断查阅相应轨道交通规范,但是,轨道交通设计涉及了近百本标准设计规范,并且规范的种类繁多且内容信息量巨大,同一标准可能在不同的规范中出现,也可能不同的规范中要求存在异同,人工翻阅效率较低。
近几年,人工智能的发展成为了行业重要的发展方向,其中自然语言处理作为该领域的重要研究方向,其研究成果已经应用于医疗、法律、金融等行业中,大大提高了领域智能化水平。但是,轨道交通领域中也存在大量的文本信息,针对此领域的相关研究少之又少。在现有的自然语言处理研究领域,现存涉及到轨道交通规范信息提取的相关方法主要是针对英文的轨道交通法规,而对中文轨道交通设计规范的研究处于起步阶段。因此,人们急需要找到一种能够对中文轨道交通设计规范进行信息化处理的方法,构建轨道交通领域知识图谱,实现利用计算机去思考语义并且推理预测,提升轨道交通设计阶段的信息化水平,提高设计阶段的生产效率。
发明内容
本发明的目的是提供一种基于深度学习的轨道交通规范关系抽取方法,能够抽取中文轨道交通设计规范中实体间关系,提高建筑领域从业人员的对轨道交通规范的查询速率。
本发明所采用的技术方案是,基于深度学习的轨道交通规范关系抽取方法,包括获取带有人工标注的有标签数据,对标签数据进行规范向量表示,将向量化数据输入到GRU模型中进行实体和实体间关系特征提取,对提取的实体和实体间关系进行训练,生成实体识别模型和实体间关系抽取模型,使用Softmax和Cross-Entropy函数结合的方式对提取的实体间关系特征进行关系分类,评估关系分类结果,根据未分类成功的实体间关系优化实体间关系抽取模型,将待检测轨道交通规范语料输入实体间关系抽取模型中,即输出待检测轨道交通规范语料中的实体间关系。
本发明的技术特征还在于,
有标签数据为标注有实体与实体间关系的轨道交通规范语料。
基于深度学习的轨道交通规范关系抽取方法,具体包括以下步骤:
步骤1:采用网络爬虫技术获取轨道交通规范语料,删除规范语料中多余信息,对规范语料进行规范化处理;
步骤2:从规范化处理后的规范语料中选出多个随机样本,标注每个随机样本中实体与实体间关系;
步骤3:对标注过实体的规范语料进行预处理,生成实体训练集;对标注的实体进行聚类处理,定义实体类型,生成实体词典;
步骤4:将实体训练集输入到Bert模型中进行预训练,生成文本特征向量,将文本特征向量输入到Bi-LSTM+CRF模型中,生成实体识别模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010355573.1/2.html,转载请声明来源钻瓜专利网。





