[发明专利]基于迁移学习的基地命名实体识别系统及方法在审
| 申请号: | 202111652819.2 | 申请日: | 2021-12-30 |
| 公开(公告)号: | CN114356990A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 马良荔;覃基伟;李陶圆;何智勇;牛敬华 | 申请(专利权)人: | 中国人民解放军海军工程大学 |
| 主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F40/295;G06F40/284;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 李满 |
| 地址: | 430000 *** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 迁移 学习 基地 命名 实体 识别 系统 方法 | ||
1.一种基于迁移学习的基地命名实体识别方法,其特征在于:它包括如下步骤:
步骤1:从互联网获取基地的自然语言描述语料,并对自然语言描述语料进行预处理,从而去除图片描述信息和HTML标签信息,并统一描述属性值的单位;
步骤2:对预处理之后的自然语言描述语料随机划分成测试集、验证集和训练集,运用BIOES格式标注方式对测试集的自然语言描述语料、验证集的自然语言描述语料和训练集的自然语言描述语料进行实体标注,形成BIOES标注格式的测试集、验证集、训练集;
步骤3:获取开源的迁移学习ALBERT模型,通过基地的自然语言描述语料,使用finetune方式更新开源的迁移学习ALBERT模型,得到更新后的迁移学习ALBERT层;
步骤4:利用更新后的迁移学习ALBERT层、BiGRU编码层和CRF约束层构建基地命名实体识别模型,使用BIOES标注格式的测试集、验证集和训练集作为基地命名实体识别模型的训练数据集对基地命名实体识别模型进行训练,在训练过程中,使用准确率、召回率、F1值作为训练评价指标,通过不断的迭代拟合,得到训练好的基地命名实体识别模型;
步骤5:利用训练好的基地命名实体识别模型对用户上传的语句进行识别,得到上传语句对应的BIOES格式标注。
2.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤1中,使用基于Python的爬虫Selenium根据基地名称列表爬取新闻稿,得到新闻稿未处理合集;筛查新闻稿未处理合集的内容,在新闻稿未处理合集中选取基地名称、基地位置、基地负责地区的名称、基地武器装备的名称、基地驻扎部队的名称、基地内建筑设施的名称、基地内建筑设施的编号、基地内各建筑设施的位置、基地评价;
使用基于Python的爬虫Selenium根据基地名称列表爬取维基百科和/或百度百科中的基地描述信息,从而获取基地名称、基地位置、基地负责地区的名称、基地武器装备的名称、基地驻扎部队的名称、基地内建筑设施的名称、基地内建筑设施的编号、基地内各建筑设施的位置、基地评价;
通过新闻稿以及维基百科和/或百度百科中获取的基地物理设施、基地位置、基地人员情况、基地武器装备信息构成基地的自然语言描述语料。
3.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤2中,BIOES标注格式的测试集、验证集、训练集内自然语言描述语料的基地描述信息按刻画基地特点的预设基地描述分类进行基地描述类别标注,并对基地描述信息进行字符排序标注。
4.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤3中,BIOES标注格式的训练集作为基地命名实体识别模型拟合的数据样本,BIOES标注格式的验证集用来评估基地命名实体识别模型当前的训练状态,BIOES标注格式的测试集对训练好的基地命名实体识别模型的泛化性能做出评价。
5.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤5中,训练好的基地命名实体识别模型中更新后的迁移学习ALBERT层对用户上传的语句中的每一个字符映射成分布式字符向量;
训练好的基地命名实体识别模型的BiGRU编码层使用BiGRU网络对迁移学习ALBERT层输出的分布式字符向量进行编码,形成多维字符向量;
训练好的基地命名实体识别模型的CRF解码层对BiGRU编码层输出的多维字符向量进行解码,并根据BIOES标注格式的隐含顺序关系进行约束,计算得到符合要求的标签标注顺序,得到上传语句对应的BIOES格式标注。
6.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤4中,准确率P、召回率R、F1值的计算公式为:
其中,TP代表正确预测的实体个数,FN代表正例预测为负例的实体个数,FP代表将负例预测为正例的实体个数,outPredictTrue表示预测为正的样本数,outAllTrue表示样本中所有的正样本数,F1值为P值和R值的调和平均值,用于平衡两个指标的占比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军海军工程大学,未经中国人民解放军海军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111652819.2/1.html,转载请声明来源钻瓜专利网。





