[发明专利]一种基于半监督学习和聚类的轨道交通实体识别方法在审

专利信息
申请号: 202110482650.4 申请日: 2021-04-30
公开(公告)号: CN113191148A 公开(公告)日: 2021-07-30
发明(设计)人: 黑新宏;董林靖;朱磊 申请(专利权)人: 西安理工大学
主分类号: G06F40/295 分类号: G06F40/295;G06F16/35;G06N3/04;G06N3/08
代理公司: 西安弘理专利事务所 61214 代理人: 韩玙
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 学习 轨道交通 实体 识别 方法
【权利要求书】:

1.一种基于半监督和聚类的轨道交通规范命名实体识别方法,其特征在于,通过专家构建轨道交通领域本体库,人工标注部分数据;首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示;其次利用层次聚类方法对实体词向量进行聚类,与专家定义的实体类别校对,最终确定的实体类别;对训练数据重新进行数据预处理和数据与训练,将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型,使用Softmax函数对提取的实体特征迭代训练优化实体识别模型;设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏。

2.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,具体包括以下步骤:

步骤1:获取轨道交通规范语料;

步骤2:对获取的道交通规范语料进行数据清洗,删除规范语料中多余信息,包括多余的符号,对规范语料进行规范化处理;

步骤3:构建轨道交通领域本体库,然后预定义实体类别;

步骤4:从规范化处理的语料库中,选取1000条规范进行人工标注,标注每条规范中的实体与实体类别;

步骤5,利用标注过实体的规范语料构建训练数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,数据集中只包含两列信息,实体和标签;

步骤5.1我们通过标注工具标注的数据生成json文件,从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息;

步骤5.2将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注,其中B(Begin)、I(Intermediate)、O(Other)的缩写,其Begin指所识别对象开始位置上的字符,Intermediate指所识别对象最中间的字符,Other指所识别对象中的非实体字符;

步骤5.3序列标注后将其处理为深度学习模型规定的数据格式,数据文件中每个字符占一行,共包含实体和实体标签两列信息,生成轨道交通数据集;

步骤6:将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中,生成实体文本特征向量;

步骤7:将文本特征向量进行层次聚类,初始参数为专家预定义实体类别数,引入BiLSTM-CRF命名实体识别模型验证实体聚类效果,根据实验表现依次调整阈值条件,将每次聚类结果输入到BiLSTM-CRF命名实体识别模型中对比验证其聚类效果,重复实验,选取命名实体识别实验结果中F1值最高的聚类参数,保存此参数下的聚类结果;

步骤8:将步骤2中构建本体库预定义的实体类别与步骤7中层次聚类结果对比校对,合并,拆分预定义类别,人工定义与聚类联合,确定轨道交通领域本体类别;

步骤9:根据步骤5中确定的实体类别,对本组构建的轨道交通数据集进行修正,得到新的轨道交通实体数据集,目的减少细粒度实体分类数量,适用于少样本学习;

步骤10:将步骤9中新的实体数据集划分为三个数据集文件,分别为训练集,测试集和验证集,占比为8:1:1;

步骤11:将实体训练集输入到BERT模型中进行预训练,生成文本特征向量;将文本特征向量输入到BiLSTM-CRF模型中,生成实体识别模型;

步骤12:将步骤7中待测试轨道交通规范语料训练集输入到更新后的实体识别模型中,即输出待测试轨道交通规范中实体类别标签。

3.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,所述步骤7中,对人工标注数据进行层次聚类,为预定义其实体类别作为参考条件。

4.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,所述步骤8的具体过程如下:

步骤8.1:针对步骤7生成的聚类结果进行分析,统计每簇中标签的比例,设定一个阈值,规定占比在阈值之上的标签为本簇的实际类别;

步骤8.2:将簇中不同标签占比相差较小,则可将专家预定义的类别合并;

步骤8.3:将独立的簇并且特征比较明显,在专家预定义的类别中可以拆分成一个单独的类别;

步骤8.4:对比word2vec和BERT生成的词向量聚类结果的差别,最终确定轨道交通领域本体库的实体类别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110482650.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top