[发明专利]一种基于序列生成对抗网络的中文命名实体识别数据增强算法有效

专利信息
申请号: 202010635292.1 申请日: 2020-07-03
公开(公告)号: CN111738007B 公开(公告)日: 2021-04-13
发明(设计)人: 李思;王蓬辉;李明正;孙忆南 申请(专利权)人: 北京邮电大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/216;G06F16/31;G06F16/35;G06F16/36;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 序列 生成 对抗 网络 中文 命名 实体 识别 数据 增强 算法
【权利要求书】:

1.一种基于序列生成对抗网络的中文命名实体识别数据增强方法,其特征在于,采用序列生成对抗网络的方式,学习训练集中实体和非实体的关系,来进行数据增强,提高命名实体识别的性能,该方法包括以下步骤:

(1)对语料库中的句子进行处理,根据句子的实体标注信息,将每个句子分成实体和非实体部分,同时将实体和非实体部分加入字典;

(2)根据实体和非实体形成的字典,将每个句子中的实体和非实体部分映射成字典中对应的索引,形成索引序列;

(3)随机初始化索引到向量的映射字典,将每个句子映射成实体和非实体对应的向量连接而成的数值矩阵;

(4)生成器采用从左到右的策略进行文本生成,双向长短期记忆神经网络(Bidirectional Long-Short Term Memory,Bi-LSTM)用于提取输出单元与之前时刻相关的特征信息,前馈神经网络将特征信息映射成所有可能的输出单元的概率;

(5)考虑当前单元的输出对于整个输出序列的影响,采用蒙特卡洛搜索的roll-out策略对之后时刻的输出单元进行采样;

(6)判别器对采样后形成的完整序列进行判断,给出相应的分数,指导生成器的数据生成;

(7)根据步骤(6)得到的判别器分数,计算当前句子的奖励和生成器的目标函数,利用反向传播和梯度更新获得良好的生成器模型,来自动生成大量数据;

(8)将步骤(7)中生成数据与步骤(1)的字典进行字符串匹配,得到生成数据对应的实体标签;

(9)将生成的文本数据用于扩大训练集,并通过字向量字典将训练集中的句子数值化为向量矩阵;

(10)采用双向长短期记忆神经网络来提取输入句子中每个字符上下文相关的特征向量表示;

(11)采用条件随机场解码获得每个字符对应的预测标签,计算损失函数,利用反向传播计算模型中的参数;

(12)不断重复步骤(9)到步骤(11),在开发集上测试训练的命名实体识别模型,选取在开发集上F值最大的模型,进行保存。

2.如权利要求1中所述方法,其特征在于,非训练情况下,实体识别的过程包括:

(2.1)将测试集中句子通过字向量字典映射成对应的向量矩阵;

(2.2)将每个句子的向量表示输入到双向长短期记忆神经网络,得到每个句子和上下文相关的特征表示;

(2.3)采用条件随机场,解码得到测试集中每个句子的最优标签序列,作为命名实体识别的结果。

3.如权利要求1所述的方法,其特征在于,所述步骤(1)中,对语料库中的句子进行处理,根据句子的实体标注信息,将每个句子分成实体和非实体部分,同时将实体和非实体部分加入字典,具体过程:

假设一个文本序列{c1,c2,c3,c4,c5,c6}的标签是{O,O,B-PER,I-PER,O,O},将c1c2,c5c6归为非实体部分,c3c4归为实体部分,然后将它们和对应的标签加入到字典中。

4.如权利要求1所述的方法,其特征在于,所述的步骤(4)中,双向长短期记忆神经网络用于提取输出单元与之前时刻相关的特征信息,前馈神经网络将特征信息映射成所有可能的输出单元的概率,计算过程如下:

hi=LSTM(hi-1,li-1)

p(li|l0,l1,…,li-1)=softmax(W·hi+b)

其中LSTM表示的是LSTM单元,hi-1指的是i-1时刻生成器中LSTM的隐层输出,W和b是前馈网络的可训练的参数权重,采用hi-1来初始化i时刻的LSTM是为了引入前一时刻的信息,softmax用于归一化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010635292.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top