[发明专利]一种面向军事语料的命名实体标注方法在审
| 申请号: | 202010102664.4 | 申请日: | 2020-02-19 |
| 公开(公告)号: | CN111428502A | 公开(公告)日: | 2020-07-17 |
| 发明(设计)人: | 黄宇;冯洋 | 申请(专利权)人: | 中科世通亨奇(北京)科技有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/169;G06N3/04 |
| 代理公司: | 北京华际知识产权代理有限公司 11676 | 代理人: | 叶宇 |
| 地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 军事 语料 命名 实体 标注 方法 | ||
本发明公开了一种面向军事语料的命名实体标注方法,分别使用基于双向LSTM与CRF结合的神经网络模型、基于Lattice LSTM神经网络模型和基于BERT预训练神经网络模型三种深度神经网络来进行机器命名实体识别自动标注;使用XGBoost方法将S1的三种算法获取的结果进行集成学习,获取标注成功的样本和标注失败的样本,其中成功样本的定义是三种机器实体识别中任意两种识别结果一致的样本,失败样本的定义三种机器实体识别结果都不一致的样本;使用人工标注的方式标注失败的样本;将所有样本标注结果以json的方式存入数据库管理。本发明可以显著提高军事语料中军事实体的标注准确率,同时以最小的人工代价达到最好的标注效果。
技术领域
本发明涉及自然语言数据处理领域,具体涉及一种使用集成学习方法标注军事语料中的军事实体为命名实体识别在军事领域的应用提供训练语料,提高军事实体的识别准确度。
背景技术
命名实体识别(Named Entity Recongition)是信息抽取和信息检索中一项重要的任务,其目的是识别出文本中表示命名实体的成分,并对其进行分类,因此有时也称为命名实体识别和分类。随着大数据时代的到来,互联网已经成为军事情报获取的重要来源。新闻专线、新闻杂志、军事报道、作战方案、演习报告、军报杂志、词典、政府公文、军事评论等途径都可以获得大量的军事文本信息,为了能够实现文本语义理解、语义表示、知识管理,需要提取面向军事领域内的军事实体,例如军政人物军职军衔、军用地名、军事装备名、军事设施名、军事机构名。为了达到计算机自动识别军事实体,需要大量高质量的军事实体标注语料,然而,在人力成本极高的当今时代,一方面,大量的标注语料将耗费不小的人力物力财力,另一方面,来自非专业人士的标注质量可能低于来自专家的标注质量,由此产生的低质量语料无法保证命名实体识别的准确性。因此,建立一种高效的面向军事语料的命名实体标注方法对于挖掘军事语料库潜在价值具有重要的价值和意义。
目前语料标注常见的模式主要有3种,分别是传统标注模式、众包标注模式和团体标注模式。这三种标注模式其实都是通过人工标注的方式进行语料标注,传统标注模式是标注人员在标注规范的指导下进行标注在,众包标注模式利用网络,通过标注人员在线对同一篇语料进行标注,通过选票仲裁得到高质量的标注语料,团体标注则是利用大规模的标注团体进行标注获取语料。究其根本,还是通过标注人员的标注工作来获取标注语料。即便是具有高效的信息资源标引、组织和检索模式的社会标注和基于群体智慧语料标注方法,仍然摆脱不了这个缺点。利用了一些软件平台或者网络,还是需要我们的标注人员除了要统一标注规范之外,花费大量的时间去仲裁比对,决定最终采用最优的语料。
发明中使用的Xgboost是目前最流行的一种集成学习方法。集成学习指的是利用多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。Xgboost是华盛顿大学陈天奇于2016年提出的,兼具线性规模求解器和树学习的高效算法。它是传统的集成学习GBDT算法上的改进,更加高效。传统的GBDT方法只利用了一阶的导数信息,Xgboost则是对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项,整体求最优解,用于权衡目标函数的下降和模型的复杂程度,避免过拟合,提高模型的求解效率,其步骤如下:
(1)给定数据集D={(xi,yi):i=1,2,…,n,xi∈Rp,yi∈R},其中n为样本个数,每个样本有P个特征。假设我们给定k(k=1,2,…,K)个回归树,xi表示第i个数据点的特征向量,fk是一个回归树,F是回归树的集合空间,模型可表示为:
(2)目标函数定义如下:
式中:yi为预测值,yi为真实值;为防止过拟合,定义正则化项,T和ω分别为树叶子节点数目和叶子权重值,γ为叶子树惩罚系数,λ为叶子权重惩罚系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科世通亨奇(北京)科技有限公司,未经中科世通亨奇(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010102664.4/2.html,转载请声明来源钻瓜专利网。





