[发明专利]一种面向桥梁领域文本的增强语义命名实体识别方法在审
申请号: | 202310599704.4 | 申请日: | 2023-05-25 |
公开(公告)号: | CN116562295A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 张永涛;田唯;黄灿;朱浩;徐双双;王永威;肖垚;李焜耀;陈圆;杨华东;薛现凯;刘志昂 | 申请(专利权)人: | 中交第二航务工程局有限公司;中交公路长大桥建设国家工程研究中心有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/214;G06N3/0442;G06N3/08 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 胡茵梦 |
地址: | 430048 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 桥梁 领域 文本 增强 语义 命名 实体 识别 方法 | ||
1.一种面向桥梁领域文本的增强语义命名实体识别方法,其特征在于,包括如下步骤:
步骤S1:准备桥梁工程领域待识别实体所在文档集合;
步骤S2:通过文档解析模块解析步骤S1中选定的文档集合中的待识别实体的语料文本数据;
步骤S3:选取设定比例的所述步骤S2中的语料文本数据进行标注,并将标注完成的样本划分为训练集、验证集和测试集;
步骤S8:通过训练集训练双塔模型,训练完成后通过验证集验证并调节双塔模型为最优模型;
步骤S9:对验证后的最优双塔模型通过测试集进行测试至符合设计标准;
步骤S10:利用上述验证后的双塔模型对桥梁工程数据库中的待识别文本进行命名实体识别。
2.如权利要求1所述的面向桥梁领域文本的增强语义命名实体识别方法,其特征在于,所述步骤S3具体包括以下几个子步骤:
步骤S301:数据清洗,对步骤S2解析出来的语料文本数据进行清洗操作,具体包括去除乱码、重复文本数据和异常符号;
步骤S302:设计并定义实体类别,根据设计要求自定义多类实体类型及对应的标签;
步骤S303:实体标注,按照步骤S302中定义的多类实体类型结合专家经验对步骤S2中的部分语料文本数据进行人工标注,并采用字粒度的BIOS标注模式;
步骤S304:划分数据集,将标注完成的少量样本划分为训练集、验证集和测试集。
3.如权利要求2所述的面向桥梁领域文本的增强语义命名实体识别方法,其特征在于,所述步骤S302中实体类型包括相关人名、桥梁项目涉及地名、桥梁项目涉及行业名、相关机构名、日期、编制依据类别名、编制依据编号和桥梁领域专业词汇,对应的标签为:PER、LOC、IND、ORG、DATE、CATE、NUM和TER。
4.如权利要求2所述的面向桥梁领域文本的增强语义命名实体识别方法,其特征在于,增强语命名实体识别方法还包括如下步骤:
步骤S4:通过标签模式扩展标签名并生成标签模式表征矩阵b;
步骤S5:通过语句模式扩展标签名并生成语句模式表征矩阵c;
步骤S6:将步骤S4和步骤S5得到两个表征矩阵b和c进行相加,得到标签的综合表征矩阵d;
步骤S7:对输入的步骤S2的语料文本数据进行切词操作,得到一个包含若干词元的列表,对列表中的每个词元进行遍历,将每一个词元输入到名为BERT document encoder的编码器中进行编码,获取每个词元的表征向量e;
步骤S8:将每个词元的表征向量e乘以步骤S6得到的标签综合表征矩阵d,再进行softmax操作,计算出词元最大概率值对应的标签,开始训练双塔模型。
5.如权利要求4所述的面向桥梁领域文本的增强语义命名实体识别方法,其特征在于,所述步骤S4具体包括以下几个子步骤:
步骤S401:将标签的简称通过匹配关系扩展为英文自然语言表示形式;
步骤S402:结合字粒度的BIOS标注模式扩展步骤S401得到的英文,进一步生成完整的英文自然语言表示形式;
步骤S403:将步骤S402经过BIOS模式扩展后的自然语言形式输入到名为BERT labelencoder的编码器中进行编码,用BERT的[CLS]token embedding作为标签的表征,组合成一个标签模式表征矩阵b。
6.如权利要求4所述的面向桥梁领域文本的增强语义命名实体识别方法,其特征在于,所述步骤S5具体包括以下几个子步骤:
步骤S501:将标签的简称通过匹配关系扩展为英文自然语言表示形式;
步骤S502:通过匹配模块将步骤S501得到的自然语言表示形式与步骤S2的语料文本数据进行匹配,若匹配成功,返回包含步骤S501得到的语句的文本,若匹配不成功,返回空;
步骤S503:将步骤S502得到文本输入到名为BERT sentence encoder的编码器中进行编码,用BERT的[CLS]token embedding作为标签的语句表征,组合成一个语句模式表征矩阵c。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中交第二航务工程局有限公司;中交公路长大桥建设国家工程研究中心有限公司,未经中交第二航务工程局有限公司;中交公路长大桥建设国家工程研究中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310599704.4/1.html,转载请声明来源钻瓜专利网。