[发明专利]一种基于多元特征和机器学习的命名实体识别方法有效
申请号: | 202110251787.9 | 申请日: | 2021-03-08 |
公开(公告)号: | CN112989830B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 张士伟;文卫东 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/194;G06F40/242;G06F40/30;G06N3/0442;G06N3/08;G06N20/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多元 特征 机器 学习 命名 实体 识别 方法 | ||
1.一种基于多元特征和机器学习的命名实体识别方法,其特征在于,包括以下步骤:
步骤1:多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列,将处理后裁判文书单词序列中每个单词进行人工标注,得到每个单词的命名实体类别以及每个单词的位置,进一步构建标签对序列;
步骤2:构建裁判文书命名实体识别模型,所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成;将处理后裁判文书单词序列输入裁判文书命名实体识别模型,通过预测得到每个单词对应的命名实体类别标签和位置标签,进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型,通过优化训练得到优化后裁判文书命名实体识别模型;
步骤1所述处理后裁判文书单词序列为:
paperi={wi,1,wi,2,…,wi,n},i∈[1,K]
其中,paperi表示第i个处理后裁判文书单词序列,wi,j表示第i个处理后裁判文书单词序列中第j个单词,n为每个处理后裁判文书单词序列中单词的数量,K表示处理后裁判文书的数量;
步骤1所述构建标签对序列为:
Itemi={(typei,1,posi,1),(typei,2,posi,2),…,(typei,n,posi,n)}
typei,j∈{D1,D2,…,DM}
post,j∈{B,I,E,S,O}
其中,typei,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体类别,posi,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体位置,D1,D2,…,DM代表M种命名实体类别,posi,j∈{B,I,E,S,O}代表M种命名实体位置,
其中,B表示该单词处于typei,j实体的开头,I表示该单词处于typei,j实体的内部,E表示该单词处于typei,j实体的末尾,S表示该单词自身构成了完整的typei,j实体,O表示该单词不在任何实体的范围内;
步骤2所述多元特征提取层,提取处理后裁判文书单词序列的词向量和领域词典相似度特征;
在提取词向量特征时,使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式;
对于第i个处理后裁判文书单词序列即paperi={wi,1,wi,2,…,wi,n},通过BERT模型获得每个单词wi,j的单词向量其中d表示词向量的维度;
进一步构建第i个处理后裁判文书单词词向量向量表示:Vi={Vi,1,Vi,2,…,Vi,n};
在提取领域词典相似度特征时,在大量裁判文书的基础上构建了L个领域词典Dict={dict1,dict2,…,dictL},每个词典dictk包含ck个单词
对于输入文书paperi中的每个单词wi,j,分别计算该单词与词典dictk中所有单词对应词向量的余弦相似度CosSim,并取平均值作为wi,j与dictk的相似度,相似度计算公式所下所示:
通过这种方式,每个单词wi,j都会得到一个领域词典相似度向量Si,j中的每个元素代表单词wi,j与各领域词典的相似度;
由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成,所以这样可以将人工总结的先验知识引入到模型中,从而提高模型的效果;
对于paperi中的每个单词wi,j,将对应的词向量Vi,j和领域词典相似度向量Si,j连接在一起,即可获得该单词的特征向量fi,j,
通过多元特征提取层的处理,对于第i个处理后裁判文书单词序列即paperi,输出第i个处理后裁判文书单词序列的特征矩阵fi={fi,1,fi,2,…,fi,n};
步骤2所述双向长短期记忆神经网络层用于进一步提取文本语义特征;
步骤2所述双向长短期记忆神经网络层由n个LSTM单元组成,每个LSTM单元对应一个细胞状态C和一个隐层状态h;
对于t时刻的LSTM单元,接收来自上一个单元的细胞状态Ct-1和隐层状态ht-1,通过内部的遗忘门ft、记忆门it和输出门ot计算出新的细胞状态Ct和隐层状态ht,其中,细胞状态Ct就包含了t时刻之前的所有有用信息,三个门的计算公式如下:
ft=sigmoid(Wf[ht-1,xt]+bf)
it=sigmoid(Wi[ht-1,xt]+bi)
ot=sigmoid(Wo[ht-1,xt]+bo)
其中,W和b分别表示权重矩阵和偏置矩阵,xt是第t个单词对应的词向量,sigmoid是一种非线性激活函数,可将自变量映射到0到1之间的值;
细胞状态Ct和隐层状态ht的计算公式如下:
其中,
ht=ot·tanh(Ct)
对于paperi中的第t个单词wit,将其前向和后向分别计算出的隐层状态和组合起来,即可获得新的隐层状态
经过双向长短期记忆神经网络层层的处理,对于上一层输入的fi={fi,1,fi,2,…,fi,n},输出新的特征矩阵hi={hi,1,hi,2,…,hi,n};
随后,将hi输入到softmax分类器中,即可计算出初步的命名实体预测结果zi={zi,1,zi,2,…,zi,n},其中zi,j表示单词wi,j对应各命名实体类别的概率,即zi,j={zi,j,1,zij,1,…,zi,j,M},zi,j,k表示单词wi,j属于第k类命名实体的概率,选择概率最大的类别即可作为预测出的类别;
所述条件随机场层用于优化命名实体识别结果;
从而对上一层输出的概率分布zij={zij,1,zij,1,…,zij,M}进行修正,输出最终的预测结果pi={pi1,pi2,…,pin},其中,pij={pij,1,pij,1,…,pij,M};
步骤2所述构建损失函数模型为:
在搭建好上述模型后,即可将训练集输入到模型中进行迭代训练;
使用交叉熵的方式来定义模型的损失函数,如下所示;
其中,若单词wi,j的真实标签typei,j=Dm,则yij,m=1,否则yij,m=0;pij,m表示模型预测出的wi,j属于第m类命名实体的概率;K表示裁判文书的数量,n表示每篇裁判文书的单词数量,M表示命名实体类别的数量;
在定义裁判文书命名实体识别模型的损失函数后,使用Adam算法对模型不断更新和优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110251787.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于双曲几何空间的结构洞节点搜索方法
- 下一篇:一种金银花干燥装置