[发明专利]一种利用基于多层注意力的序列生成网络进行多罪名预测的方法有效
申请号: | 201911257862.1 | 申请日: | 2019-12-10 |
公开(公告)号: | CN111026869B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 李玉军;马宝森;朱孔凡;贲晛烨;马浩洋;胡伟凤 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 基于 多层 注意力 序列 生成 网络 进行 罪名 预测 方法 | ||
1.一种利用基于多层注意力的序列生成网络进行多罪名预测的方法,其特征在于,包括步骤如下:
(1)数据预处理:
对原始数据进行筛选,原始数据为裁判文书,将裁判文书中包含的犯罪事实描述部分利用正则表达式匹配的方法抽取出来,做中文分词处理,得到裁判文书的全部数据集;将裁判文书的全部数据集打乱后,分成若干份,设定为N,N-1份做训练数据集,剩下1份做测试数据集;
(2)训练词向量,获取语义信息,语义信息是指词向量:
将上述步骤(1)得到的训练数据集输入skipgram神经网络模型或CBOW神经网络模型进行训练,得到训练数据集中每一个词相应的词向量,构成词向量表;
(3)编码:
采用层级注意力网络进行编码,是指:将原始文本切分为句子级别,原始文本是指步骤(1)抽取出来经过分词处理的犯罪事实描述部分;首先,对每个句子进行词级别的LSTM+注意力操作,实现对每个句子的特征提取;然后,进行句子级别的LSTM+注意力操作,来获得整篇原始文本的特征表示;
步骤(3)中,对每个句子进行词级别的LSTM+注意力操作,实现对每个句子的特征提取,包括步骤如下:
词编码:词编码器的特征抽取模块以双向LSTM作为基本的特征抽取器,输入原始文本和前导罪名,词编码的实现公式如式(II)-(Ⅷ)所示:
it=σ(Wihht-1+Wixxt+bi) (II)
ft=σ(Wfhht-1+Wfxxt+bf) (Ⅲ)
ot=σ(Wohht-1+Woxxt+bo) (Ⅳ)
gt=tanh(Wghht-1+Wgxxt+bg) (Ⅴ)
ct=it⊙gt+ft⊙ct-1 (Ⅵ)
ht=ot⊙tanh(ct) (Ⅶ)
式(II)-(Ⅷ)中,ht-1表示当前时刻的前一时间步的隐藏状态表示向量,xt表示从步骤(2)中得到的词向量,bi、bf、bo、bg为偏置向量,Wih、Wix、Wfh、Wfx、Woh、Wox、Wgh、Wgx表示权重矩阵,it,ft和ot分别代表LSTM的输入门,遗忘门和输出门;σ,tanh分别代表sigmoid激活函数和双曲正切函数⊙代表对应元素相乘;W,b分别代表LSTM内部训练矩阵和偏置向量;ht-1,xt分别代表在时间步t-1时的隐藏层状态和时间步t时的输入;hbi代表前向隐藏层状态和后向隐藏层状态的级联向量;
词级别注意力操作:首先把词表示hit送入一个全连接层获得hit的隐藏表示uit,接着用词级别的注意力权重向量Uw计算词的的重要性,并进行标准化处理,计算句子向量si作为基于权重的单词表示的加权和;实现公式如式(Ⅸ)-(Ⅺ)所示:
uit=tanh(Wwhit+bw) (Ⅸ)
si=∑tαithit (Ⅺ)
式(Ⅸ)-(Ⅺ)中,Ww和Uw代表注意力权重矩阵,bw代表偏置向量,hit表示第i个句子在时序t时的隐藏状态,在注意力机制里,首先使用一个单层的神经网络对隐藏向量hit处理后得到一个隐藏表示uit,然后用这个隐藏表示uit经过softmax函数得到权重αit,最终一个句子的表示句子向量si就是权重αit与编码向量hit的和;
步骤(3),进行句子级别的LSTM+注意力操作,来获得整篇原始文本的特征表示,包括步骤如下:
句子编码:句子编码器的特征抽取模块以双向LSTM作为基本的特征抽取器,输入原始文本和前导罪名,句子编码的实现公式如式(XII)-(XVIII)所示:
it,2=σ(Wih,2ht-1,2+Wix,2xt,2+bi,2) (XII)
ft,2=σ(Wfh,2ht-1,2+Wfx,2xt,2+bf,2) (XIII)
ot,2=σ(Woh,2ht-1,2+Wox,2xt,2+bo,2) (XIV)
gt,2=tanh(Wgh,2ht-1,2+Wgx,2xt,2+bg,2) (XV)
ct,2=it,2⊙gt,2+ft,2⊙ct-1,2 (XVI)
ht,2=ot,2⊙tanh(ct,2) (XVII)
式(XII)-(XVIII)中,ht-1,2表示当前时刻的前一时间步的隐藏状态表示向量,xt,2表示从词编码器中传送过来的表示向量,bi,2、bf,2、bo,2、bg,2为偏置向量,Wih,2、Wix,2、Wfh,2、Wfx,2、Woh,2、Wox,2、Wgh,2、Wgx,2表示权重矩阵,it,2,ft,2和ot,2分别代表LSTM的输入门,遗忘门和输出门;σ,tanh分别代表sigmoid激活函数和双曲正切函数⊙代表对应元素相乘;hbi,2代表前向隐藏层状态和后向隐藏层状态的级联向量;
句子级别的注意力操作:首先把词表示hi送入一个全连接层获得hi的隐藏表示ui,接着,用词级别的注意力权重向量Us计算词的重要性,并进行标准化处理,计算句子向量v作为基于权重的单词注释的加权和,实现公式如式(XIX)-(XXI)所示:
ui=tanh(Wshi+bs) (XIX)
v=∑iαihi (XXI)
式(XIX)-(XXI)中,Ws和Us代表句子级别注意力权重矩阵,bs代表偏置向量,hi表示第i个句子的隐藏状态,在注意力机制里,首先使用一个单层的神经网络对隐藏向量hi处理后得到一个隐藏表示ui,然后用这个隐藏表示ui经过softmax函数得到权重αi,最终一个句子的表示子向量v就是权重αi与编码向量hi的和;
(4)注意力操作:
通过注意力机制实现注意力操作,获取特征向量;
(5)解码:
采用LSTM作为基本解码单元;步骤(3)生成的特征向量送入LSTM,结合步骤(4)注意力机制送来的特征向量,进行罪名的预测,并借鉴机器翻译,通过人为设置启动的罪名,将预测罪名的过程转化为罪名序列生成的过程,包括:
a、设置一个标识符“sos”,表示某一罪名的开始;
b、将标识符“sos”输入LSTM,LSTM作为基本解码单元的网络,得到第一个输出,第一个输出作为第一个罪名特征向量;接着,第一个罪名特征向量作为网络的下一个输入,得到的输出作为第二个罪名特征向量,不断循环,直至当基本解码单元遇到“eos”标识符,得到网络最后输出的罪名;“eos”标识符表示最后输出的罪名标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911257862.1/1.html,转载请声明来源钻瓜专利网。