[发明专利]基于深度学习的半监督中文命名实体识别方法有效

专利信息
申请号: 201810686249.0 申请日: 2018-06-28
公开(公告)号: CN108959252B 公开(公告)日: 2022-02-08
发明(设计)人: 李东升;李真真;冯大为 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F40/295 分类号: G06F40/295;G06F16/35;G06N20/00;G06N3/04;G06N3/08
代理公司: 长沙国科天河知识产权代理有限公司 43225 代理人: 董惠文
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 监督 中文 命名 实体 识别 方法
【权利要求书】:

1.基于深度学习的半监督中文命名实体识别方法,其特征在于,包括以下步骤:

第一步,构建基于字符的深度学习命名实体识别模型,方法是:利用特定领域的大量文本语料训练字向量,在BiLSTM-CRF的深度学习框架上抽取出命名实体及其类型;

第二步,设计打分器,利用有标注数据训练学习器和打分器;打分器是对学习器标注的结果进行二分类判断的机器学习模型,二分类即可信标签和噪音标签,其中可信标签是学习器打出的高置信度的标签;噪音标签是学习器打出的可能出错的标签;利用第一步深度学习命名实体识别模型中,BiLSTM学习到的每个字的最优特征经过全连接层的映射后的向量表示作为打分器输入,计算每个字的预测标签的置信值,统计所有的置信值找到一个阈值,大于阈值的作为可信标签,小于阈值的作为噪音标签;

第三步,设计半监督学习框架,利用无标注数据实现半监督中文命名实体识别;利用无标注数据自动构造可信样本到训练集中,从学习器标注的结果中,利用打分器筛除掉含有命名实体噪音标签的子句,同时尽量保留连续的子句,生成新的训练数据;

所述第二步打分器训练具体流程如下:

2.1利用第一步构建的神经网络模型作为学习器,用有标注数据训练网络的参数,得到训练好的学习器;

2.2将学习器中全连接层输出的每个字的向量表示,和每个字的预测标签作为打分器的输入特征;根据学习器预测的结果和真实的标签对比,学习器预测正确的标签为负样本,预测错误的标签为正样本,正样本远少于负样本,得到二分类标签,作为打分器的标注信息;

2.3利用2.2得到的有标注信息的训练数据,训练出二分类机器学习模型的打分器。

2.如权利要求1所述的基于深度学习的半监督中文命名实体识别方法,其特征在于,所述第一步基于字符的深度学习命名实体识别模型构建过程如下:

1.1对于特定领域的中文文本命名实体识别任务,首先将特定领域的语料预处理,去除特殊符号和标点,训练得到每个字的分布式表达;

1.2使用深度学习框架构造基于字符的深度学习命名实体识别模型;利用有标注的数据训练模型;模型结构如下:

1.2.1使用嵌入层导入预训练的字向量,将输入的句子匹配到一个分布式向量的序列上;形式化地,用x={x1,…,xi,…,xn}表示一个输入序列,其中,xi是用d维向量表示的第i个字,表示实数,1<i≤n,n是句子长度,i为整数;

1.2.2使用BiLSTM的神经网络学习输入序列的长距离语义依赖;两层LSTM神经网络,通过从两个相反的方向处理输入序列x,学习到每个字上下文依赖的表示;每个LSTM将前一个时间步的隐藏状态和当前时间步的输入向量一起作为输入,得到当前时间步的隐藏状态:同理反方向可得:为了获得每个字在整个句子上的特定上下文表示,将两个方向的隐藏状态表示连接起来:从而学习到输入层的最优特征表示h={h1,…,hn},其中m为LSTM神经元的个数;

1.2.3使用全连接层将序列中每个字的维度映射到标签类别数的维度上,以表示每种标签类别的权重;记s是输出的标签的类别数;全连接层将1.2.2得到的最优特征表示h={h1,…,hn}通过公式z=h·U+b进行变换,其中是模型可训练的参数,“·”为矩阵乘操作符;

1.2.4使用CRF层学习输出的序列标签之间的依赖,得到最后输出的序列标签;CRF能考虑两个临近的标签之间的关联,并计算整个输入句子的所有可能标签序列,选出最优的预测序列;

1.3利用已知标注y={y1,…,yn}和预测结果的误差,其中,yi为字xi的标签;通过随机梯度下降和反向传播算法不断地优化神经网络的参数,损失函数的值不再下降时迭代停止,得到最优的神经网络参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810686249.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top