[发明专利]基于串行混合模型的军事新闻实体识别方法在审

专利信息
申请号: 202111401314.9 申请日: 2021-12-08
公开(公告)号: CN113901826A 公开(公告)日: 2022-01-07
发明(设计)人: 谢泽宇;崔隽;后弘毅;陆保国;苏晓威 申请(专利权)人: 中国电子科技集团公司第二十八研究所
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210046 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 串行 混合 模型 军事新闻 实体 识别 方法
【说明书】:

发明公开了一种基于串行混合模型的军事新闻实体识别方法。该方法首先使用BERT预训练语言模型对文本进行动态分布式表示;其次使用Bi‑LSTM网络结构提取上下文中的局部特征,同时使用CRF模型提取全局最优序列;最后串联规则模型对领域自动化抽取实体进行规则校验,串联上述三个步骤实现从军事中大规模精确抽取军事新闻命名实体。本发明相较于传统命名实体识别方法不仅模型性能提升显著,准确率、召回率、F值有一定提升,而且具备较强的工程实现和推广意义。

技术领域

本发明属于命名实体识别技术领域,尤其涉及一种基于串行混合模型的军事新闻实体识别方法。

背景技术

从给定的非结构化文本中抽取出高质量的知识三元组并构建相应的知识图谱的功能,为实现自动化的知识抽取与高效利用提供理论基础和技术支撑。传统专家系统时代主要依靠专家手工获取知识不同,现代知识显著特点是规模巨大,无法单一依靠人工和专家构建。

目前命名实体识别的方法主要有两种:统计机器学习的抽取方法和基于神经网络的深度学习抽取方法。在统计机器学习的抽取方法中,条件随机模型通过考虑输入的状态特征函数、包含标签转移特征函数和充分利用文本特征,实现了高准确率的实体识别与抽取,成为最常用的方法。其它的机器学习方法还包括隐马尔可夫模型和最大熵马尔可夫模型等。基于神经网络的深度学习成为知识好抽取的新思路,相关研究团队提出了神经网络模型CNN(卷积神经网络)加CRF(条件随机场),较早使用神经网络进行实体抽取,在命名实体识别任务上取得了很好的效果。在他们工作的基础上,一种一般包含嵌入层(主要有词向量,字符向量以及一些额外特征)、Bi-LSTM(双向长短时记忆网络)层、激活函数tanh隐藏层和最后的CRF层的模型也被提出,称为RNN+CRF。实验表明,RNN+CRF取得了更好的效果,超越了基于丰富人工特征的CRF模型,成为目前基于深度学习的NER主流模型。联合抽取串联(pipelined)地抽取实体和关系有其优点,它在任务上有一定的简化作用,具有较强的易操作性;但同时,它会忽略实体和关系之间的相关性,可能导致错误在任务之间积累和传播,导致知识抽取的性能降低。

发明内容

发明目的:本发明的目的在于提供一种实现军事新闻实体的高效准确识别的基于串行混合模型的军事新闻实体识别方法,基于串行混合的思想,融合Bert-Bi-LSTM-CRF深度学习抽取和军事新闻领域规则方法,通过串行迭代方式提升军事新闻领域实体识别的准确率。

技术方案:本发明的基于串行混合模型的军事新闻实体识别方法,包括如下步骤:

步骤1、多源数据接引汇聚,针对不同的数据量级、数据格式、网络条件,提供定制化的数据引接汇聚方案,保证数据集成的稳定、高效;为保证军事新闻数据知识抽取的有效性与一致性,研究基于定制规则的数据校验与清洗转换技术,对军事新闻数据中的结构不完整、数据不正确、内容不相关、标准不统一的信息进行清洗与转换;提高数据质量。

步骤2、交互式语料标注,采用交互式数据标注平台构建技术进行语料标注,提高人工标注效率,为军事新闻知识抽取模型提供准确可靠样本集;

步骤3、Bert-Bi-LSTM-CRF序列标注,采用Bert-Bi-LSTM-CRF模型作为核心的序列标注模型,进行军事新闻实体识别;

步骤4、串行混合模型联合抽取方法,对军事新闻领域数据进行实体知识抽取,其中混合模型主要包括:深度学习模型和规则模型;

步骤5、知识抽取模型服务编排与发布部署,使用面向军用领域的微服务框架、面向智能军事新闻应用的集成与编排技术、面向军用传输协议的服务适配等技术,实现智能模型服务化高效使用,智能应用服务化灵活编排构建。

进一步地,步骤1中,所述多源数据接引汇聚的步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111401314.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top