[发明专利]一种基于多元特征和机器学习的命名实体识别方法有效

申请号：	202110251787.9	申请日：	2021-03-08
公开（公告）号：	CN112989830B	公开（公告）日：	2023-08-18
发明（设计）人：	张士伟;文卫东	申请（专利权）人：	武汉大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/194;G06F40/242;G06F40/30;G06N3/0442;G06N3/08;G06N20/00
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	许莲英
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多元特征机器学习命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多元特征和机器学习的命名实体识别方法，其特征在于，包括以下步骤：

步骤1：多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列，将处理后裁判文书单词序列中每个单词进行人工标注，得到每个单词的命名实体类别以及每个单词的位置，进一步构建标签对序列；

步骤2：构建裁判文书命名实体识别模型，所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成；将处理后裁判文书单词序列输入裁判文书命名实体识别模型，通过预测得到每个单词对应的命名实体类别标签和位置标签，进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型，通过优化训练得到优化后裁判文书命名实体识别模型；

步骤1所述处理后裁判文书单词序列为：

paper_i＝{w_i，1，w_i，2，…，w_i，n}，i∈[1，K]

其中，paper_i表示第i个处理后裁判文书单词序列，w_i，j表示第i个处理后裁判文书单词序列中第j个单词，n为每个处理后裁判文书单词序列中单词的数量，K表示处理后裁判文书的数量；

步骤1所述构建标签对序列为：

Item_i＝{(type_i，1，pos_i，1)，(type_i，2，pos_i，2)，…，(type_i，n，pos_i，n)}

type_i，j∈{D₁，D₂，…，D_M}

pos_t，j∈{B，I，E，S，O}

其中，type_i，j表示第i个处理后裁判文书单词序列中第j个单词的命名实体类别，pos_i，j表示第i个处理后裁判文书单词序列中第j个单词的命名实体位置，D₁，D₂，…，D_M代表M种命名实体类别，pos_i，j∈{B，I，E，S，O}代表M种命名实体位置，

其中，B表示该单词处于type_i，j实体的开头，I表示该单词处于type_i，j实体的内部，E表示该单词处于type_i，j实体的末尾，S表示该单词自身构成了完整的type_i，j实体，O表示该单词不在任何实体的范围内；

步骤2所述多元特征提取层，提取处理后裁判文书单词序列的词向量和领域词典相似度特征；

在提取词向量特征时，使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式；

对于第i个处理后裁判文书单词序列即paper_i＝{w_i，1，w_i，2，…，w_i，n}，通过BERT模型获得每个单词w_i，j的单词向量其中d表示词向量的维度；

进一步构建第i个处理后裁判文书单词词向量向量表示：V_i＝{V_i，1，V_i，2，…，V_i，n}；

在提取领域词典相似度特征时，在大量裁判文书的基础上构建了L个领域词典Dict＝{dict₁，dict₂，…，dict_L}，每个词典dict_k包含c_k个单词

对于输入文书paper_i中的每个单词w_i，j，分别计算该单词与词典dict_k中所有单词对应词向量的余弦相似度CosSim，并取平均值作为w_i，j与dict_k的相似度，相似度计算公式所下所示：

通过这种方式，每个单词w_i，j都会得到一个领域词典相似度向量S_i，j中的每个元素代表单词w_i，j与各领域词典的相似度；

由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成，所以这样可以将人工总结的先验知识引入到模型中，从而提高模型的效果；

对于paper_i中的每个单词w_i，j，将对应的词向量V_i，j和领域词典相似度向量S_i，j连接在一起，即可获得该单词的特征向量f_i，j，

通过多元特征提取层的处理，对于第i个处理后裁判文书单词序列即paper_i，输出第i个处理后裁判文书单词序列的特征矩阵f_i＝{f_i，1，f_i，2，…，f_i，n}；

步骤2所述双向长短期记忆神经网络层用于进一步提取文本语义特征；

步骤2所述双向长短期记忆神经网络层由n个LSTM单元组成，每个LSTM单元对应一个细胞状态C和一个隐层状态h；

对于t时刻的LSTM单元，接收来自上一个单元的细胞状态C_t-1和隐层状态h_t-1，通过内部的遗忘门f_t、记忆门i_t和输出门o_t计算出新的细胞状态C_t和隐层状态h_t，其中，细胞状态C_t就包含了t时刻之前的所有有用信息，三个门的计算公式如下：

f_t＝sigmoid(W_f[h_t-1，x_t]+b_f)

i_t＝sigmoid(W_i[h_t-1，x_t]+b_i)

o_t＝sigmoid(W_o[h_t-1，x_t]+b_o)

其中，W和b分别表示权重矩阵和偏置矩阵，x_t是第t个单词对应的词向量，sigmoid是一种非线性激活函数，可将自变量映射到0到1之间的值；

细胞状态C_t和隐层状态h_t的计算公式如下：

其中，

h_t＝o_t·tanh(C_t)

对于paper_i中的第t个单词w_it，将其前向和后向分别计算出的隐层状态和组合起来，即可获得新的隐层状态

经过双向长短期记忆神经网络层层的处理，对于上一层输入的f_i＝{f_i，1，f_i，2，…，f_i，n}，输出新的特征矩阵h_i＝{h_i，1，h_i，2，…，h_i，n}；

随后，将h_i输入到softmax分类器中，即可计算出初步的命名实体预测结果z_i＝{z_i，1，z_i，2，…，z_i，n}，其中z_i，j表示单词w_i，j对应各命名实体类别的概率，即z_i，j＝{z_i，j，1，z_ij，1，…，z_i，j，M}，z_i，j，k表示单词w_i，j属于第k类命名实体的概率，选择概率最大的类别即可作为预测出的类别；