[发明专利]基于深度学习的地铁设计规范文本分析和语料库构建方法在审

专利信息
申请号: 202110816598.1 申请日: 2021-07-20
公开(公告)号: CN113626596A 公开(公告)日: 2021-11-09
发明(设计)人: 朱磊;徐俊豪;黑新宏;杨智超;黄渭涵;崔育荣 申请(专利权)人: 西安理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/295;G06F40/30;G06F40/284;G06N3/08;G06Q50/26
代理公司: 西安弘理专利事务所 61214 代理人: 韩玙
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 地铁 设计规范 文本 分析 语料库 构建 方法
【说明书】:

发明提供了基于深度学习的地铁设计规范文本分析和语料库构建方法,属于自然语言处理技术领域。首先进行文本分析,主要包括实体关系梳理和文本特点两个方面,从而得到命名实体识别和实体关系抽取任务所需的实体类别和关系类别,并梳理出分类标准。其次,从数据来源、标注模式、标注环境和数据分析与矫正等四个方面描述构建语料库的原则和过程,最终得到基于地铁设计规范的标注语料库。构建针对地铁设计规范的语料库;地铁设计领域抽取出统一、完整、高效的实体关系将有助于地铁设计领域的智能化建设。

技术领域

本发明属于人工智能领域的一个重要方向,是地铁设计领域实现信息化、智能化的关键工作,具体涉及基于深度学习的地铁设计规范文本分析和语料库构建方法。

背景技术

伴随着信息技术发展的突飞猛进,人工智能技术已经延伸到各行各业,并与许多传统行业有效地结合到一起。现代城市公共基础建设中,地铁已经成为不可或缺的轨道工具。地铁工程建设包括规划、设计、建设和试运行等多个环节,其中设计环节是保证工程建设质量的关键,也是确保地铁安全、经济、适用的重要前提。

地铁设计规范是约束这一环节的重要文件,是我国经过多年经验沉淀和反复论证研究的成果。地铁设计规范文本内容涉及专业多,情况多变,专业词汇广,关系复杂,且各章节描述风格不统一,为抽取统一、完整、高效的实体关系带来了困难;目前针对地铁设计领域的实体识别和实体关系抽取的研究处于起步阶段,同时现有研究尚未提出和发布该领域的信息抽取语料库,针对地铁设计规范的语料库构建。本文对规范文本进行分析,构建了基于该规范的信息抽取语料库。

发明内容

本发明的目的是提供基于深度学习的地铁设计规范文本分析和语料库构建方法,解决了现有技术中存在的地铁设计规范风格不统一,关系不清楚的问题,构建针对地铁设计规范的语料库;地铁设计领域抽取出统一、完整、高效的实体关系将有助于地铁设计领域的智能化建设。

本发明所采用的技术方案是,基于深度学习的地铁设计规范文本分析和语料库构建方法,包括以下步骤:

步骤1,针对实体关系抽取任务,进行实体及实体间的关系的语义分析;

步骤2,根据地铁设计文本规范梳理实体分类体系;

步骤3,基于对实体间语义关系分析的基础上,对分类体系进行合并和定义,形成6类实体;

步骤4,进行语义关系的梳理和定义,得到13类关系的分类标准;

步骤5,依据实体和实体间关系分类标准对从《地铁设计规范》GB2017-2013的文本部分摘出的1000条规范进行数据标注;

步骤6,对步骤5中标注得到的数据分析与矫正;

步骤1中针对实体关系抽取任务,进行语义分析过程具体为:

步骤1.1,首先进行需求调研和分析,确定出研究的领域范畴。

步骤1.2,第二步对照“建筑信息模型分类”到第三步梳理领域重要概念的过程中,根据建筑信息模型分类得到地铁设计领域的上层概念。

步骤1.3,定义类和类的等级体系并得到底层20种实体类别。

步骤1.4,在20种实体类别的基础上,借鉴UMLS的语义关系定义,得到地铁设计规范中的19种实体关系类别。

步骤2中对地铁设计规范文本进行了分析;地铁设计规范数据的形式主要由表格、自由文本、图像构成,其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据,地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性等特点,还具备一些独有的子语言特性,主要包括:

1)缺失主要成分信息;

2)特殊符号表达的独特含义;

3)不同的表达模式具备相同的含义;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110816598.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top