[发明专利]一种适用于多语言多领域的命名实体识别方法有效

申请号：	201910169547.7	申请日：	2019-03-06
公开（公告）号：	CN109871541B	公开（公告）日：	2023-04-28
发明（设计）人：	杨尚明;郑子强;张云;杜春慧;刘勇国;李巧勤	申请（专利权）人：	电子科技大学
主分类号：	G06F40/295	分类号：	G06F40/295
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	苗艳荣
地址：	610054 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适用于语言领域命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种适用于多语言多领域的命名实体识别方法，其特征在于，包括以下步骤：

S1、构建初始化语料库，使用word2vec训练字嵌入矩阵，所述语料库：分为训练语料库、测试语料库，分别用于训练模型参数和测试模型效果；训练语料库中对命名实体进行标记，使用BEMSO标记方法；字嵌入矩阵：行数为字总数，列数为维度的字向量矩阵；

S2、设定阈值n，其作用为限定命名实体的字符长度，即认为长度超过n的字符串不是命名实体，同时此n也是并行LSTM的层数；

S3、对句子进行顺序遗忘编码,具体为：

设输入句子为S＝c₁,c₂,...,c_m，S表示句子，c_m表示句子第m个字；通过字嵌入矩阵，得到输入句子的字向量序列X＝x₁,x₂,...x_m，x_m表示第m个字的字向量；取其中所有长度不超过n的子序列得到子序列集合Sub＝{c₁,c₁c₂,c₁...c_n,c₂,c₂c₃,c₂...c_n+1,...,c_m-n+1...c_m}，使用固定大小的顺序遗忘编码对所有子序列编码，得到与字向量维度相同的子序列编码，如x_b,e＝FOFE(c_b,c_e)，b表示子序列在句子中开始位置，e表示结束位置；FOFE编码计算公式为：

其中α表示遗忘因子，当0＜α≤0.5时，FOFE得到的字符串编码是无损且唯一的；

S4、使用前向并行LSTM分别计算长度为1,2…，n的单词记忆单元状态；同时使用后向并行LSTM分别计算长度为1,2…，n的单词记忆单元状态，所述步骤S4中使用前向并行LSTM分别计算长度为1,2…，n的单词记忆单元状态具体为：

将字序列向量和得到的FOFE编码同时输入多层前向LSTM，层数为阈值n，第一层输入字序列向量X¹＝x₁,x₂,...x_m，x_m表示第m个字的字向量；第二层输入Sub中长度为2的子序列经过FOFE编码后的序列向量X²＝x_1，2,x_2，3,...x_m-1,m，x_m-1,m表示开始位置为m-1，结束位置为m的字序列向量；第三层输入Sub中长度为3的子序列经过FOFE编码后的子序列向量X³＝x_1，3,x_2，4,...x_m-2,m，x_m-2,m表示开始位置为m-2，结束位置为m的字序列向量；以此类推，直到第n层为止；每一层LSTM的单元都由输入门i、遗忘门f、输出门o、记忆单元c组成，各门控单元和记忆单元更新的计算公式为：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i) (2)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (3)

z_t＝tanh(W_xcx_t+W_hch_t-1+b_c) (4)

c_t＝f_tc_t-1+i_tz_t (5)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (6)

其中，x_t表示t时刻输入的字符向量，h_t-1为t-1时刻的隐藏状态，c_t-1和c_t分别表示t-1时刻和t时刻的记忆单元状态，i_t、f_t、o_t分别为t时刻输入门、遗忘门和输出门的状态向量，σ为sigmoid函数，tanh为双曲正切函数，Wxi表示输入门i对应输入x的参数矩阵，b_i表示输入门i的偏置项，参数矩阵和偏置项用*表示下标，此处和下文中所有的W_*和b_*均表示参数矩阵和偏置项，具体含义以*具体表示的内容为准；z_t表示t时刻的实际输入；

此为第一层LSTM计算公式，公式(5)为当前第一层记忆单元，其余并行LSTM由于输入为字符串，输入门表示为i_b,e，遗忘门表示为f_b,e，记忆单元表示为c_b,e，因此子序列的记忆单元计算公式为：

c_b，e＝f_b，ec_b+i_b，ez_b，e (8)

其中，x_b,e为输入的字符串向量，h_b和c_b分别为第一层LSTM得到的字符串开始位置的隐藏状态和记忆单元状态，z_b,e表示实际输入，W^T为各门控单元的参数矩阵转置，b为偏置项；

S5、融合前向并行LSTM记忆单元状态；同时融合后向并行LSTM记忆单元状态；

S6、计算前向LSTM的隐藏单元状态，同时计算后向LSTM的隐藏单元状态；

S7、级联前向LSTM和后向LSTM隐藏单元状态,具体为：

前向LSTM得到的隐藏状态表示为后向LSTM得到的隐藏状态表示为级联前向和后向，得到最终的隐藏状态

S8、输入单向LSTM进行实体标签预测，具体为：

将h输入单向LSTM，输入门计算公式为：

其中，表示解码器d的输入门i在t时刻的状态向量，σ为sigmoid函数，h_t表示t时刻解码器的输入向量，即S7步骤得到的h，S_t-1表示解码器t-1时刻的隐藏状态，T_t-1表示解码器在t-1时刻的标签预测向量，由对应的隐藏状态S_t-1转变而来，计算公式为：

T_t＝W_tsS_t+b_ts (15)

其中，S_t表示解码器在t时刻的隐藏状态，T_t表示解码器在t时刻的标签预测向量；使用softmax归一化，进行标签概率预测，nt表示所有的标签数量，i表示第i个标签，计算公式为：

y_t＝W_yT_t+b_y (16)

其中，y_t是对T_t进行的非线性转化，exp()是以自然数e为底数的指数函数，表示步骤t时预测为第i个标签的概率；

S9、使用L2正则的句子级对数似然损失来训练模型，以平衡模型复杂度和准确度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910169547.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种文本相似度的计算方法以及相关设备
下一篇：一种文本知识提取方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种适用于多语言多领域的命名实体识别方法有效

专利文献下载