[发明专利]一种面向桥梁领域文本的增强语义命名实体识别方法在审
申请号: | 202310599704.4 | 申请日: | 2023-05-25 |
公开(公告)号: | CN116562295A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 张永涛;田唯;黄灿;朱浩;徐双双;王永威;肖垚;李焜耀;陈圆;杨华东;薛现凯;刘志昂 | 申请(专利权)人: | 中交第二航务工程局有限公司;中交公路长大桥建设国家工程研究中心有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/214;G06N3/0442;G06N3/08 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 胡茵梦 |
地址: | 430048 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 桥梁 领域 文本 增强 语义 命名 实体 识别 方法 | ||
本发明公开了一种面向桥梁领域文本的增强语义命名实体识别方法,具体为自然语言处理、深度学习及人工智能技术领域。具体实现方案为:获取桥梁工程领域待识别实体所在文档集合并解析选定的文档集合中的待识别实体的语料文本数据;标注少量数据并将标注完成的样本划分为训练集、验证集和测试集;通过训练集训练双塔模型,然后通过验证集验证并调节双塔模型为最优模型;对验证后的最优双塔模型通过测试集进行测试;利用上述验证后的双塔模型对桥梁工程数据库中的待识别文本进行命名实体识别。本发明能够在少样本的场景下且无需大量标注数据的前提下,能准确识别桥梁领域复杂的特定命名实体。
技术领域
本发明涉及自然语言处理技术领域。更具体地说,本发明涉及一种面向桥梁领域文本的增强语义命名实体识别方法。
背景技术
随着人工智能技术飞速发展,对于自然语言的文本数据的处理需求数量激增,从文本数据中获取有价值的语义信息一直是自然语言处理领域研究的重点工作之一。
桥梁工程领域拥有大量桥梁知识相关的文本,按照数据的组织性质,可以划分为结构化、半结构化和非结构化数据。其中,占比最高的非结构化数据中包含大量的桥梁工程相关信息,从中通过命名实体识别任务可以识别文本中包含的实体,为桥梁领域的知识图谱构建提供知识支撑,同时也能为桥梁领域的上层应用比如内容审核、文本生成等任务提供重要的基础数据。
目前,业界较为先进的命名实体识别方法是基于条件随机场的双向长短时记忆(BiLSTM-CRF)方法,该方法的机制是将字符嵌入和词组嵌入作为输入,然后通过双向长短时记忆网络和条件随机场模型构建对应的实体识别模型,但该方法在桥梁工程领域面临以下挑战:(1)桥梁领域的标注数据非常少,而该方法需要大量的标注数据,导致可行性降低;(2)桥梁领域的数据专业性较强,且实体类型众多,该方法在面临实体类别数较多时存在识别准确率低的问题。所以急需一种在少样本情况下准确识别桥梁领域命名实体的方法。
发明内容
本发明的一个目的是提供一种面向桥梁领域文本的增强语义命名实体识别方法,能够在少样本的场景下且无需大量标注数据的前提下,能准确识别桥梁领域复杂的特定命名实体。
为了实现根据本发明的这些目的和其它优点,提供了一种面向桥梁领域文本的增强语义命名实体识别方法,包括如下步骤:
步骤S1:准备桥梁工程领域待识别实体所在文档集合;
步骤S2:通过文档解析模块解析步骤S1中选定的文档集合中的待识别实体的语料文本数据;
步骤S3:选取设定比例的所述步骤S2中的语料文本数据进行标注,并将标注完成的样本划分为训练集、验证集和测试集;
步骤S8:通过训练集训练双塔模型,训练完成后通过验证集验证并调节双塔模型为最优模型;
步骤S9:对验证后的最优双塔模型通过测试集进行测试至符合设计标准;
步骤S10:利用上述验证后的双塔模型对桥梁工程数据库中的待识别文本进行命名实体识别。
优选的是,所述步骤S3具体包括以下几个子步骤:
步骤S301:数据清洗,对步骤S2解析出来的语料文本数据进行清洗操作,具体包括去除乱码、重复文本数据和异常符号;
步骤S302:设计并定义实体类别,根据设计要求自定义多类实体类型及对应的标签;
步骤S303:实体标注,按照步骤S302中定义的多类实体类型结合专家经验对步骤S2中的部分语料文本数据进行人工标注,并采用字粒度的BIOS标注模式;
步骤S304:划分数据集,将标注完成的少量样本划分为训练集、验证集和测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中交第二航务工程局有限公司;中交公路长大桥建设国家工程研究中心有限公司,未经中交第二航务工程局有限公司;中交公路长大桥建设国家工程研究中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310599704.4/2.html,转载请声明来源钻瓜专利网。