[发明专利]一种基于半监督学习和聚类的轨道交通实体识别方法在审
申请号: | 202110482650.4 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113191148A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 黑新宏;董林靖;朱磊 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 轨道交通 实体 识别 方法 | ||
1.一种基于半监督和聚类的轨道交通规范命名实体识别方法,其特征在于,通过专家构建轨道交通领域本体库,人工标注部分数据;首先采用word2vec和BiLSTM-CRF预训练模型分别对带标签实体进行向量化表示;其次利用层次聚类方法对实体词向量进行聚类,与专家定义的实体类别校对,最终确定的实体类别;对训练数据重新进行数据预处理和数据与训练,将生成的词向量输入到BiLSTM-CRF算法训练命名实体识别模型,使用Softmax函数对提取的实体特征迭代训练优化实体识别模型;设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏。
2.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,具体包括以下步骤:
步骤1:获取轨道交通规范语料;
步骤2:对获取的道交通规范语料进行数据清洗,删除规范语料中多余信息,包括多余的符号,对规范语料进行规范化处理;
步骤3:构建轨道交通领域本体库,然后预定义实体类别;
步骤4:从规范化处理的语料库中,选取1000条规范进行人工标注,标注每条规范中的实体与实体类别;
步骤5,利用标注过实体的规范语料构建训练数据,生成用于命名实体识别任务的轨道交通数据集;采用BIO标注模式,数据集中只包含两列信息,实体和标签;
步骤5.1我们通过标注工具标注的数据生成json文件,从json文件中提取出标注的实体类型和实体的起始位置和结束位置信息;
步骤5.2将采用BIO标注策略与位置信息相结合的方式对原始规范文本进行序列标注,其中B(Begin)、I(Intermediate)、O(Other)的缩写,其Begin指所识别对象开始位置上的字符,Intermediate指所识别对象最中间的字符,Other指所识别对象中的非实体字符;
步骤5.3序列标注后将其处理为深度学习模型规定的数据格式,数据文件中每个字符占一行,共包含实体和实体标签两列信息,生成轨道交通数据集;
步骤6:将步骤5中得到的轨道交通数据集输入到word2vec词向量训练模型中,生成实体文本特征向量;
步骤7:将文本特征向量进行层次聚类,初始参数为专家预定义实体类别数,引入BiLSTM-CRF命名实体识别模型验证实体聚类效果,根据实验表现依次调整阈值条件,将每次聚类结果输入到BiLSTM-CRF命名实体识别模型中对比验证其聚类效果,重复实验,选取命名实体识别实验结果中F1值最高的聚类参数,保存此参数下的聚类结果;
步骤8:将步骤2中构建本体库预定义的实体类别与步骤7中层次聚类结果对比校对,合并,拆分预定义类别,人工定义与聚类联合,确定轨道交通领域本体类别;
步骤9:根据步骤5中确定的实体类别,对本组构建的轨道交通数据集进行修正,得到新的轨道交通实体数据集,目的减少细粒度实体分类数量,适用于少样本学习;
步骤10:将步骤9中新的实体数据集划分为三个数据集文件,分别为训练集,测试集和验证集,占比为8:1:1;
步骤11:将实体训练集输入到BERT模型中进行预训练,生成文本特征向量;将文本特征向量输入到BiLSTM-CRF模型中,生成实体识别模型;
步骤12:将步骤7中待测试轨道交通规范语料训练集输入到更新后的实体识别模型中,即输出待测试轨道交通规范中实体类别标签。
3.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,所述步骤7中,对人工标注数据进行层次聚类,为预定义其实体类别作为参考条件。
4.根据权利要求1所述的基于半监督和聚类的轨道交通规范的实体识别方法,其特征在于,所述步骤8的具体过程如下:
步骤8.1:针对步骤7生成的聚类结果进行分析,统计每簇中标签的比例,设定一个阈值,规定占比在阈值之上的标签为本簇的实际类别;
步骤8.2:将簇中不同标签占比相差较小,则可将专家预定义的类别合并;
步骤8.3:将独立的簇并且特征比较明显,在专家预定义的类别中可以拆分成一个单独的类别;
步骤8.4:对比word2vec和BERT生成的词向量聚类结果的差别,最终确定轨道交通领域本体库的实体类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110482650.4/1.html,转载请声明来源钻瓜专利网。