[发明专利]基于BERT和Att-BiLSTM的论点对识别方法在审
| 申请号: | 202011255816.0 | 申请日: | 2020-11-11 |
| 公开(公告)号: | CN112347269A | 公开(公告)日: | 2021-02-09 |
| 发明(设计)人: | 张璞;刘华东;陈鹏;熊安萍 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/211;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 bert att bilstm 论点 识别 方法 | ||
1.一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,包括:获取法律判决书中的数据,对数据进行预处理;将预处理的数据输入到训练好的法律论点对分类模型中,识别出诉方辩方相对应的法律论点对,根据法律论点对进行司法判决;所述法律论点对分类模型包括BERT模型和基于注意力长短期记忆循环神经网络Att-BiLSTM分类模型;
法律论点对分类模型的训练过程包括:
S1:获取法律判决书中的文本数据;提取文本数据的辩方论点和诉方论点;
S2:辩方论点和诉方论点进行集合,得到数据集;将数据集划分为训练集、验证集以及测试集;
S3:将训练集中的数据输入到BERT模型,得到论点对的语义向量;
S4:将论点对的语义向量输入到Att-BiLSTM分类模型中得到预测分类结果;
S5:根据预测分类结果确定分类损失函数;使用Adam算法不断调整Att-BiLSTM分类模型和BERT模型的参数,当损失函数最小时,完成模型的训练。
2.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,对数据进行预处理的过程包括:
步骤1:将法律判决书根据段落进行划分,得到辩方论点段和诉方论点段;
步骤2:按照句子粒度将辩方论点段和诉方论点段进行划分,去除句子中的停用词,得到句子集合;
步骤3:去除句子集合中的特殊字符及标点符号。
3.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,得到论点对的语义向量的过程包括:
S31:在输入模型的数据中设置两个特殊标记[CLS]和[SEP];特殊分类嵌入[CLS]作为第一个标记,特殊标记[SEP]作为诉方论点和辩方论点分开的标志,特殊标记[SEP]作为句子结束标记;
S32:根据标记嵌入、句子嵌入以及位置嵌入构造语义符号序列E;
S33:将语义符号序列E输入到预训练的BERT模型中,得到论点对语义向量;论点对语义向量的表达式为:
C,T1…TN,TSEP,T1…TM=Bert(E)
其中,C代表特殊分类嵌入[CLS]的输出,T1…TN代表诉方论点的输出,TSEP代表特殊标记[SEP]的输出,T1…TM代表辩方论点的输出,E代表BERT模型的输入。
4.根据权利要求1所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,得到预测分类结果的过程包括:
S41:将BERT模型的输出分别输入到前向LSTM和后向LSTM中,得到前向隐藏状态和后向隐藏状态
S42:将前向的隐藏状态和后向的隐藏态进行拼接得到的向量ht;
S43:采用前向LSTM和向后LSTM的最终隐藏状态表示每个句子向量si;
S44:根据句子向量si以及注意力机制计算句子注意力权重Ai;根据单词向量和注意力机制计算单词注意力权重aij;
S45:根据句子注意力权重Ai和单词注意力权重aij计算第k个样本的输出向量xk;
S46:将注意力机制得到的输出向量xk作为输入,通过softmax分类器来得到分类结果pk,分类结果pk最接近标注yk的论点对则为最匹配的论点对。
5.根据权利要求4所述的一种基于BERT和Att-BiLSTM的论点对识别方法,其特征在于,输出向量为:
其中,Ai表示句子注意力权重,aij表示单词注意力权重,ht表示数据经过隐藏层得到的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011255816.0/1.html,转载请声明来源钻瓜专利网。





