[发明专利]基于法条图卷积网络文本的案件文书案由分类方法及介质有效
| 申请号: | 202110055384.7 | 申请日: | 2021-01-15 | 
| 公开(公告)号: | CN112699243B | 公开(公告)日: | 2022-10-18 | 
| 发明(设计)人: | 沈艳艳;赵宸 | 申请(专利权)人: | 上海交通大学 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06N3/08;G06N3/04 | 
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 | 
| 地址: | 200240 *** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 法条 图卷 网络 文本 案件 文书 案由 分类 方法 介质 | ||
1.一种基于法条图卷积网络文本增强的案件文书案由分类方法,其特征在于,包括如下步骤:
步骤1:数据预处理,对于数据进行案情提取、文本分词和降噪以及法条共现关系图构建;
步骤2:法律词嵌入预训练,在法律领域语料集上进行预训练任务,得到法律领域词嵌入;
步骤3:模型构建,建立基于法条图卷积文本增强的案件文书案由分类模型;
步骤4:模型训练,训练集数据对步骤3中构建的模型进行梯度下降更新训练,获得模型参数;
步骤5:案由预测,所述步骤4中训练完成的分类模型对待分类的案件案情描述文本进行案由分类;
所述步骤2的法律词嵌入预训练为在收集的法律领域语料集上通过预训练方法得到词语映射到词向量的词嵌入矩阵,词嵌入矩阵初始是现有通用领域语料集训练完成的词嵌入矩阵,在此基础上在法律领域进一步训练;
所述步骤3的模型构造的具体步骤包括案情文本表征向量的建模、基于图卷积网络法条文本表征建模和法条-案情文本增强网络的建模;
所述案情文本表征向量的建模包括:使用词嵌入矩阵将案情文本词语序列转化为词向量序列,使用神经网络文本自编码器进行特征提取和降维降噪,从编码器得到案情文本表征向量,为后续模型提供有效的输入;
所述基于图卷积网络法条文本表征建模包括:使用词嵌入矩阵将法律条文词语序列转化为词向量序列,使用神经网络文本自编码器进行特征提取和降维降噪,从编码器得到法条文本表征向量,对全部法条文本表征向量基于法条共现关系图使用图卷积神经网络进行文本增强得到增强后的全部法条文本表征向量,为后续模型提供有效的输入;
所述法条-案情文本增强网络的建模包括:基于注意力机制对案情文本表征和相关法条文本表征进行匹配和计算,得到法条对应权重,案情与法条文本相关性越强则权重越大,根据权重将法条文本表征对原案情描述文本表征进行增强,最后通过一个全连接网络作为分类器得到案件在不同案由上的概率分布。
2.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法,其特征在于,所述步骤1中所述的案情提取为利用规则匹配案件文书中案情描述段落,所述分词和降噪为基于通用词典和法律词典将文本划分为词语序列,通过停用词列表将文本中的停用词进行删除,所述法条共现关系图构建为统计不同法律条文在同一案件中出现频次,构造对应的共现矩阵来表征法条共现关系图。
3.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法,其特征在于,所述的步骤4包括如下步骤:
步骤4.1:模型参数初始化:;
步骤4.2:使用训练集对模型进行基于梯度下降的无监督预训练和有监督训练:;
步骤4.3:验证集选模型。
4.根据权利要求1所述的一种基于法条图卷积网络文本增强的案件文书案由分类方法,其特征在于,所述的法律条文和案由包括了训练集中案件涉及的全部法律条文和案由。
5.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110055384.7/1.html,转载请声明来源钻瓜专利网。





