[发明专利]一种适用于多语言多领域的命名实体识别方法有效

专利信息
申请号: 201910169547.7 申请日: 2019-03-06
公开(公告)号: CN109871541B 公开(公告)日: 2023-04-28
发明(设计)人: 杨尚明;郑子强;张云;杜春慧;刘勇国;李巧勤 申请(专利权)人: 电子科技大学
主分类号: G06F40/295 分类号: G06F40/295
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 苗艳荣
地址: 610054 *** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 适用于 语言 领域 命名 实体 识别 方法
【权利要求书】:

1.一种适用于多语言多领域的命名实体识别方法,其特征在于,包括以下步骤:

S1、构建初始化语料库,使用word2vec训练字嵌入矩阵,所述语料库:分为训练语料库、测试语料库,分别用于训练模型参数和测试模型效果;训练语料库中对命名实体进行标记,使用BEMSO标记方法;字嵌入矩阵:行数为字总数,列数为维度的字向量矩阵;

S2、设定阈值n,其作用为限定命名实体的字符长度,即认为长度超过n的字符串不是命名实体,同时此n也是并行LSTM的层数;

S3、对句子进行顺序遗忘编码,具体为:

设输入句子为S=c1,c2,...,cm,S表示句子,cm表示句子第m个字;通过字嵌入矩阵,得到输入句子的字向量序列X=x1,x2,...xm,xm表示第m个字的字向量;取其中所有长度不超过n的子序列得到子序列集合Sub={c1,c1c2,c1...cn,c2,c2c3,c2...cn+1,...,cm-n+1...cm},使用固定大小的顺序遗忘编码对所有子序列编码,得到与字向量维度相同的子序列编码,如xb,e=FOFE(cb,ce),b表示子序列在句子中开始位置,e表示结束位置;FOFE编码计算公式为:

其中α表示遗忘因子,当0<α≤0.5时,FOFE得到的字符串编码是无损且唯一的;

S4、使用前向并行LSTM分别计算长度为1,2…,n的单词记忆单元状态;同时使用后向并行LSTM分别计算长度为1,2…,n的单词记忆单元状态,所述步骤S4中使用前向并行LSTM分别计算长度为1,2…,n的单词记忆单元状态具体为:

将字序列向量和得到的FOFE编码同时输入多层前向LSTM,层数为阈值n,第一层输入字序列向量X1=x1,x2,...xm,xm表示第m个字的字向量;第二层输入Sub中长度为2的子序列经过FOFE编码后的序列向量X2=x1,2,x2,3,...xm-1,m,xm-1,m表示开始位置为m-1,结束位置为m的字序列向量;第三层输入Sub中长度为3的子序列经过FOFE编码后的子序列向量X3=x1,3,x2,4,...xm-2,m,xm-2,m表示开始位置为m-2,结束位置为m的字序列向量;以此类推,直到第n层为止;每一层LSTM的单元都由输入门i、遗忘门f、输出门o、记忆单元c组成,各门控单元和记忆单元更新的计算公式为:

it=σ(Wxixt+Whiht-1+Wcict-1+bi) (2)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (3)

zt=tanh(Wxcxt+Whcht-1+bc) (4)

ct=ftct-1+itzt (5)

ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (6)

其中,xt表示t时刻输入的字符向量,ht-1为t-1时刻的隐藏状态,ct-1和ct分别表示t-1时刻和t时刻的记忆单元状态,it、ft、ot分别为t时刻输入门、遗忘门和输出门的状态向量,σ为sigmoid函数,tanh为双曲正切函数,Wxi表示输入门i对应输入x的参数矩阵,bi表示输入门i的偏置项,参数矩阵和偏置项用*表示下标,此处和下文中所有的W*和b*均表示参数矩阵和偏置项,具体含义以*具体表示的内容为准;zt表示t时刻的实际输入;

此为第一层LSTM计算公式,公式(5)为当前第一层记忆单元,其余并行LSTM由于输入为字符串,输入门表示为ib,e,遗忘门表示为fb,e,记忆单元表示为cb,e,因此子序列的记忆单元计算公式为:

cb,e=fb,ecb+ib,ezb,e (8)

其中,xb,e为输入的字符串向量,hb和cb分别为第一层LSTM得到的字符串开始位置的隐藏状态和记忆单元状态,zb,e表示实际输入,WT为各门控单元的参数矩阵转置,b为偏置项;

S5、融合前向并行LSTM记忆单元状态;同时融合后向并行LSTM记忆单元状态;

S6、计算前向LSTM的隐藏单元状态,同时计算后向LSTM的隐藏单元状态;

S7、级联前向LSTM和后向LSTM隐藏单元状态,具体为:

前向LSTM得到的隐藏状态表示为后向LSTM得到的隐藏状态表示为级联前向和后向,得到最终的隐藏状态

S8、输入单向LSTM进行实体标签预测,具体为:

将h输入单向LSTM,输入门计算公式为:

其中,表示解码器d的输入门i在t时刻的状态向量,σ为sigmoid函数,ht表示t时刻解码器的输入向量,即S7步骤得到的h,St-1表示解码器t-1时刻的隐藏状态,Tt-1表示解码器在t-1时刻的标签预测向量,由对应的隐藏状态St-1转变而来,计算公式为:

Tt=WtsSt+bts (15)

其中,St表示解码器在t时刻的隐藏状态,Tt表示解码器在t时刻的标签预测向量;使用softmax归一化,进行标签概率预测,nt表示所有的标签数量,i表示第i个标签,计算公式为:

yt=WyTt+by (16)

其中,yt是对Tt进行的非线性转化,exp()是以自然数e为底数的指数函数,表示步骤t时预测为第i个标签的概率;

S9、使用L2正则的句子级对数似然损失来训练模型,以平衡模型复杂度和准确度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910169547.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top