[发明专利]一种基于知识图谱和文本分类模型的法律条文推荐方法在审
| 申请号: | 202110548315.X | 申请日: | 2021-05-19 |
| 公开(公告)号: | CN113065005A | 公开(公告)日: | 2021-07-02 |
| 发明(设计)人: | 穆宁;陶辉;陈洲;阮祥超;朱丹 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/284;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
| 地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 图谱 文本 分类 模型 法律条文 推荐 方法 | ||
1.一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述方法包括如下步骤:
步骤一、法律知识图谱构建;
步骤二、训练文本数据预处理;
步骤三、多分类标签模型训练;
步骤四、法律罪名要素识别;
步骤五、法律条文推荐,根据罪名分类在法律知识图谱中快速找到对应的法律罪名实体和对应的法律条文实体。
2.如权利要求1所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述法律知识图谱构建,包括:
101、从法律网站采集所有法律罪名信息和法律条文信息;
102、根据本体定义,将罪名和法条处理成实体和关系;
103、将数据入图库,构建法律知识图谱。
3.如权利要求1所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述训练文本数据预处理,包括:
201、数据集构建:选择训练文本,对文本数据进行打标,标签为训练文本数据对应的罪名信息,然后将训练文本数据进行shape转换,shape维度是m ∗2;
202、数据清洗分词:对shape中的content数据进行清洗,同时进行中文分词;
203、样本数值化:对shape中的content内容进行id化,提取所有分词,形成vocab,然后将中文替换成id,同时获取最大文本分词数量max_length,将 content 分词转换成维度是1 ∗max _length的矩阵,对于长度小于max_length的进行zero padding,用0进行补位,最终输出input_x矩阵,表示所有的文本信息;
204、标签数值化:对shape中的label进行数值化,将标签类型表示为one-hot向量编码,生成input_y矩阵,表示input_x对应的标签信息,同时保存好标签转换器,存为label.pickle,供模型预测使用;
205、文本词向量转换:通过bert中文向量模型,将vocab对应的分词转换为词向量,生成embedding_matrix。
4.如权利要求1所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述多分类标签模型训练,包括:
301、采用TextCNN算法进行多标签模型训练,其中,句子向量可以表示为n为句子分词的长度,每个词向量用表示:
每一次滑窗的卷积操作结果为:
其中,表示的是卷积核,,维度是;表示的是中每次的滑窗矩阵,维度是 ,同时,是激活函数;
由于句子长度为n,卷积核高度为h,需要滑窗n-h+1次,卷积汇总结果表示为:
;
采用全局最大池化进行卷积,即,卷积核个数num_filters有多个,假设卷积核数量为m,则最终池化结果为:
;
将池化层结果经过全连接层转换,通过函数压缩成数值在(0,1)的实数,表示各分类的概率, 得到的向量y,T表示标签类别,W 表示权重矩阵,b为偏置项:
;
302、将文本数据划分为train、evaluate、test三个数据集,通过train数据进行训练,其他数据集进行评估和测试;
303、设置学习率为0.0001,loss值计算加入L1正则化,将训练数据通过embedding_matrix转成向量,进行轮询训练;
304、将训练好的最优模型进行保存,用于法律罪名要素识别。
5.如权利要求1所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述法律罪名要素识别,包括:
401、检索文本预处理:基于保存的vocab embedding_matrix,将输入文本进行向量化,然后加载法律要素识别模型,获取标签概率分布;
402、标签概率转化:根据阈值筛选符合条件的分类,将概率分布转为数值化标签,同时通过label.pickle转换成具体的标签,即罪名分类。
6.如权利要求3所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于:所述训练文本包括公开的判决文书、案件摘要或犯罪行为描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110548315.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像超分辨方法及装置
- 下一篇:一种金属复合材料生产用分级加料装置





