[发明专利]一种适用于多语言多领域的命名实体识别方法有效
| 申请号: | 201910169547.7 | 申请日: | 2019-03-06 |
| 公开(公告)号: | CN109871541B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 杨尚明;郑子强;张云;杜春慧;刘勇国;李巧勤 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295 |
| 代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 苗艳荣 |
| 地址: | 610054 *** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 适用于 语言 领域 命名 实体 识别 方法 | ||
1.一种适用于多语言多领域的命名实体识别方法,其特征在于,包括以下步骤:
S1、构建初始化语料库,使用word2vec训练字嵌入矩阵,所述语料库:分为训练语料库、测试语料库,分别用于训练模型参数和测试模型效果;训练语料库中对命名实体进行标记,使用BEMSO标记方法;字嵌入矩阵:行数为字总数,列数为维度的字向量矩阵;
S2、设定阈值n,其作用为限定命名实体的字符长度,即认为长度超过n的字符串不是命名实体,同时此n也是并行LSTM的层数;
S3、对句子进行顺序遗忘编码,具体为:
设输入句子为S=c1,c2,...,cm,S表示句子,cm表示句子第m个字;通过字嵌入矩阵,得到输入句子的字向量序列X=x1,x2,...xm,xm表示第m个字的字向量;取其中所有长度不超过n的子序列得到子序列集合Sub={c1,c1c2,c1...cn,c2,c2c3,c2...cn+1,...,cm-n+1...cm},使用固定大小的顺序遗忘编码对所有子序列编码,得到与字向量维度相同的子序列编码,如xb,e=FOFE(cb,ce),b表示子序列在句子中开始位置,e表示结束位置;FOFE编码计算公式为:
其中α表示遗忘因子,当0<α≤0.5时,FOFE得到的字符串编码是无损且唯一的;
S4、使用前向并行LSTM分别计算长度为1,2…,n的单词记忆单元状态;同时使用后向并行LSTM分别计算长度为1,2…,n的单词记忆单元状态,所述步骤S4中使用前向并行LSTM分别计算长度为1,2…,n的单词记忆单元状态具体为:
将字序列向量和得到的FOFE编码同时输入多层前向LSTM,层数为阈值n,第一层输入字序列向量X1=x1,x2,...xm,xm表示第m个字的字向量;第二层输入Sub中长度为2的子序列经过FOFE编码后的序列向量X2=x1,2,x2,3,...xm-1,m,xm-1,m表示开始位置为m-1,结束位置为m的字序列向量;第三层输入Sub中长度为3的子序列经过FOFE编码后的子序列向量X3=x1,3,x2,4,...xm-2,m,xm-2,m表示开始位置为m-2,结束位置为m的字序列向量;以此类推,直到第n层为止;每一层LSTM的单元都由输入门i、遗忘门f、输出门o、记忆单元c组成,各门控单元和记忆单元更新的计算公式为:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (2)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (3)
zt=tanh(Wxcxt+Whcht-1+bc) (4)
ct=ftct-1+itzt (5)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (6)
其中,xt表示t时刻输入的字符向量,ht-1为t-1时刻的隐藏状态,ct-1和ct分别表示t-1时刻和t时刻的记忆单元状态,it、ft、ot分别为t时刻输入门、遗忘门和输出门的状态向量,σ为sigmoid函数,tanh为双曲正切函数,Wxi表示输入门i对应输入x的参数矩阵,bi表示输入门i的偏置项,参数矩阵和偏置项用*表示下标,此处和下文中所有的W*和b*均表示参数矩阵和偏置项,具体含义以*具体表示的内容为准;zt表示t时刻的实际输入;
此为第一层LSTM计算公式,公式(5)为当前第一层记忆单元,其余并行LSTM由于输入为字符串,输入门表示为ib,e,遗忘门表示为fb,e,记忆单元表示为cb,e,因此子序列的记忆单元计算公式为:
cb,e=fb,ecb+ib,ezb,e (8)
其中,xb,e为输入的字符串向量,hb和cb分别为第一层LSTM得到的字符串开始位置的隐藏状态和记忆单元状态,zb,e表示实际输入,WT为各门控单元的参数矩阵转置,b为偏置项;
S5、融合前向并行LSTM记忆单元状态;同时融合后向并行LSTM记忆单元状态;
S6、计算前向LSTM的隐藏单元状态,同时计算后向LSTM的隐藏单元状态;
S7、级联前向LSTM和后向LSTM隐藏单元状态,具体为:
前向LSTM得到的隐藏状态表示为后向LSTM得到的隐藏状态表示为级联前向和后向,得到最终的隐藏状态
S8、输入单向LSTM进行实体标签预测,具体为:
将h输入单向LSTM,输入门计算公式为:
其中,表示解码器d的输入门i在t时刻的状态向量,σ为sigmoid函数,ht表示t时刻解码器的输入向量,即S7步骤得到的h,St-1表示解码器t-1时刻的隐藏状态,Tt-1表示解码器在t-1时刻的标签预测向量,由对应的隐藏状态St-1转变而来,计算公式为:
Tt=WtsSt+bts (15)
其中,St表示解码器在t时刻的隐藏状态,Tt表示解码器在t时刻的标签预测向量;使用softmax归一化,进行标签概率预测,nt表示所有的标签数量,i表示第i个标签,计算公式为:
yt=WyTt+by (16)
其中,yt是对Tt进行的非线性转化,exp()是以自然数e为底数的指数函数,表示步骤t时预测为第i个标签的概率;
S9、使用L2正则的句子级对数似然损失来训练模型,以平衡模型复杂度和准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910169547.7/1.html,转载请声明来源钻瓜专利网。





