[发明专利]基于深度学习的地铁设计规范文本分析和语料库构建方法在审
申请号: | 202110816598.1 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113626596A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 朱磊;徐俊豪;黑新宏;杨智超;黄渭涵;崔育荣 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/30;G06F40/284;G06N3/08;G06Q50/26 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 地铁 设计规范 文本 分析 语料库 构建 方法 | ||
1.基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于:包括以下步骤:
步骤1,针对实体关系抽取任务,进行实体及实体间的关系的语义分析;
步骤2,根据地铁设计文本规范梳理实体分类体系;
步骤3,基于对实体间语义关系分析的基础上,对分类体系进行合并和定义,形成6类实体;
步骤4,进行语义关系的梳理和定义,得到13类关系的分类标准;
步骤5,依据实体和实体间关系分类标准对从《地铁设计规范》GB2017-2013的文本部分摘出的1000条规范进行数据标注;
步骤6,对步骤5中标注得到的数据分析与矫正。
2.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于,步骤1中针对实体关系抽取任务,进行语义分析过程具体为:
步骤1.1,首先进行需求调研和分析,确定出研究的领域范畴。
步骤1.2,第二步对照“建筑信息模型分类”到第三步梳理领域重要概念的过程中,根据建筑信息模型分类得到地铁设计领域的上层概念。
步骤1.3,定义类和类的等级体系并得到底层20种实体类别。
步骤1.4,在20种实体类别的基础上,借鉴UMLS的语义关系定义,得到地铁设计规范中的19种实体关系类别。
3.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于,步骤2中对地铁设计规范文本进行了分析;地铁设计规范数据的形式主要由表格、自由文本、图像构成,其中自由文本形式的非结构化数据是地铁设计规范中非常重要的数据,地铁设计规范文本除了具有自然语言文本本身的层次性、递归性、序列性等特点,还具备一些独有的子语言特性,主要包括:
1)缺失主要成分信息;
2)特殊符号表达的独特含义;
3)不同的表达模式具备相同的含义;
4)掺杂口语化表达;
5)包含大量专业术语;
6)建筑设计习惯用语大量出现;
7)语义类型相对固定;
8)为了表达清晰,用半结构化的方式组织各部分内容。
4.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于,步骤4中,采用了Semeval-Task8中的9种关系分类标准,进行语义关系的梳理和定义,得到13类关系的分类标准。
5.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于,步骤5中,本文语料库的数据来源是《地铁设计规范》GB2017-2013;
步骤5.1首先对文本进行必要的预处理工作,摘出规范中的文本部分,针对摘出来的文本中1000条规范进行人工标注,共36457个字符,包含5244个实体。标注模式采用团体标注的方式,依据步骤4中得到的实体和关系分类标准,利用jieba分词抽取关键词来完成标注。
步骤5.2其次本文在实验阶段使用了80W土木建筑信息文本语料进行了领域深度预训练,以缓解标注数据有限,并提高预训练模型对土木建筑信息领域知识的学习能力,借助非地铁设计相关的规范减轻模型的过拟合问题,进一步提升下游任务微调时的效果,在此,本专利采用基于生成式模型的半监督学习方法,该类方法通常是把未标记样本属于每个类别的概率看成一组缺失参数,然后采用EM算法对生成式模型的参数进行极大似然估计;文本来源是国家建表库网站和规范文本集,包括建筑专业、城市规划、结构专业的数十本国家规范。
6.如权利要求1所述的基于深度学习的地铁设计规范文本分析和语料库构建方法,其特征在于,步骤6中,语料库构建不是一次性成型的,它是一个迭代的过程,这个过程采用了“生成数据集-训练基准模型-分析预测错误-制定数据更新策略-更新数据集”的基准模型预测,结合人工交叉验证的半人工闭环方式;其中,基准模型尽量选择对超参数不是很敏感的模型;从数据分析和任务角度出发,进行数据集矫正,使得数据集满足两个基本条件:在不断迭代构建过程中,尽力减轻由于多人标注产生的不一致性;最终版本数据集符合一定的统计学分布特征,同时具备代表性和平衡性;在构建语料库的时候需要尽力确保语料库能够代表规范文本最大范围内的变化性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110816598.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自适应惯量的虚拟同步机控制方法
- 下一篇:一种用于涂料的夹持转运装置