[发明专利]基于串行混合模型的军事新闻实体识别方法在审
申请号: | 202111401314.9 | 申请日: | 2021-12-08 |
公开(公告)号: | CN113901826A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 谢泽宇;崔隽;后弘毅;陆保国;苏晓威 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 串行 混合 模型 军事新闻 实体 识别 方法 | ||
1.一种基于串行混合模型的军事新闻实体识别方法,其特征在于,包括如下步骤:
步骤1、多源数据接引汇聚,针对不同的数据量级、数据格式、网络条件,提供定制化的数据引接汇聚方案,保证数据集成的稳定、高效;为保证军事新闻数据知识抽取的有效性与一致性,研究基于定制规则的数据校验与清洗转换技术,对军事新闻数据中的结构不完整、数据不正确、内容不相关、标准不统一的信息进行清洗与转换;
步骤2、交互式语料标注,采用交互式数据标注平台构建技术进行语料标注,为军事新闻知识抽取模型提供准确可靠样本集;
步骤3、Bert-Bi-LSTM-CRF序列标注,采用Bert-Bi-LSTM-CRF模型作为核心的序列标注模型,进行军事新闻实体识别;
步骤4、串行混合模型联合抽取方法,对军事新闻领域数据进行实体知识抽取,其中混合模型主要包括:深度学习模型和规则模型;
步骤5、知识抽取模型服务编排与发布部署,使用面向军用领域的微服务框架、面向智能军事新闻应用的集成与编排技术、面向军用传输协议的服务适配等技术,实现智能模型服务化高效使用,智能应用服务化灵活编排构建。
2.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法,其特征在于,步骤1中,所述多源数据接引汇聚的步骤如下:
步骤1-1、数据汇聚,通过数据多源引接、增量采集、数据转换、采集方式,实现数据的汇集;
步骤1-2、清洗转换,通过数据清洗、数据规则校验的方法相结合的实现数据的清洗转换。
3.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法,其特征在于,步骤2中,所述交互式语料标注是针对军事新闻文本数据中的实体和关系进行标注,并在标注过程中对实体和关系进行词义排歧。
4.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法,其特征在于,步骤3中,所述Bert-Bi-LSTM-CRF序列标注,首先采用BERT预训练语言模型,实现对军事新闻文本的深层语义特征进行提取;其次利用了一种Bi-LSTM来提取指称项的局部上下文特征,其中Bi-LSTM中包含两个LSTM,一个提取前向隐藏的特征,另一个提取后向隐藏的特征。
5.根据权利要求4所述的基于串行混合模型的军事新闻实体识别方法,其特征在于,所述Bert-Bi-LSTM-CRF序列标注具体包括如下步骤:
步骤3-1、采用BERT预训练语言模型进行分布式表示,动态分布式表示模型通过双向语言模型在海量开源语料上进行训练,然后通过迁移学习的方式在少量军事新闻语料上进行微调,最后根据目标任务,采用动态加权的方式进行整合;
步骤3-2、采用Bi-LSTM-CRF的局部特征提取模型进行特征提取,利用了一种LSTM来提取指称项的局部上下文特征,Bi-LSTM中包含两个LSTM,一个提取前向隐藏的特征,另一个提取后向隐藏的特征,Bi-LSTM层的输出可以表示为,由于的维度为2k,使用激活函数将投射到k维度空间,该函数可以表示为:。
6.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法,其特征在于,步骤4中,所述深度学习模型采用混合Bert、Bi-LSTM、CRF的训练模型;所述规则模型采用领域词典库和校验规则库。
7.根据权利要求1所述的基于串行混合模型的军事新闻实体识别方法,其特征在于,步骤5中,知识抽取模型服务编排与发布部署,基于编排机制的模型动态组装技术,提供接口规范定义、模型算法描述、模型算法组件化、封装合格化验证、模型组件加载适配等功能,提供便捷的交互接口。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111401314.9/1.html,转载请声明来源钻瓜专利网。