[发明专利]一种基于遗传变异和半监督的案件特征提取方法及装置有效
申请号: | 202110163512.X | 申请日: | 2021-02-05 |
公开(公告)号: | CN113378563B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 孙晓锐;艾中良;贾高峰;刘贤艳;杨哲 | 申请(专利权)人: | 中国司法大数据研究院有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F16/35;G06N3/08;G06Q50/18 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100070 北京市海淀区南四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 变异 监督 案件 特征 提取 方法 装置 | ||
1.一种基于遗传变异、半监督和强化学习的案件特征提取模型训练方法,其特征在于,包括以下步骤:
构建包含标注样本和未标注样本的初始样本集;
对初始样本集中的标注样本和未标注样本进行分词、去除停用词,得到分词后的样本数据集;
对分词后的样本数据集中的标注样本和未标注样本进行文本数据增强处理,得到对应的数据增强样本集合;
根据词向量生成模型,分别计算并生成数据增强样本集合中的标注样本和未标注样本的词向量集合;
利用词向量集合,构建并训练基于遗传变异、半监督和强化学习的案件特征提取模型;
所述训练基于遗传变异、半监督和强化学习的案件特征提取模型,包括:
利用数据集中的所有标注样本,训练一个基模型分类器;
利用基模型分类器对未标注样本进行预测,给出每个样本属于每一个类别的概率,得到第一代伪标记样本集合;
根据遗传变异原理构建第二代训练集、验证集和测试集;
利用第n代训练集和验证集训练案件特征提取模型,并利用测试集、验证集和训练集校验该案件特征提取模型,判定是继续进行第n+1代训练还是调整第n代训练集中伪标记数据的类别;
重复上述步骤,逐步扩充训练集,直至扩充迭代的代数或训练集的大小满足设定代数或大小;
其中,利用遗传变异原理构建第n代训练集Nn训,包括:
将产生的伪标记数据中的各类别样本分别筛选出来,得到各类别伪标记样本集合W11、W12…W1m,其中m表示类别的数量;
从第n-1代的i类别伪标记样本集合W1i中选择置信度最大的Nn训/m*0.8个本添加到第n代样本集合中,并根据置信度大小从第n-1代伪标记样本中随机选择Nn训/m*0.2个样本添加到第n代样本集合中;
依次从第n-1代伪标记样本集合中选择其它类别的样本添加到第n代样本集合中,构建第n代训练集。
2.根据权利要求1所述的方法,其特征在于,所述文本数据增强处理,包括:
利用word2vect方法训练得到同义词、近义词模型;
在通用同义词、近义词词典的基础上,利用生成的同义词、近义词模型构建司法领域的同义词、近义词词表;
对标注样本和未标注样本进行同义词、近义词替换,得到每一个样本对应的n个泛化样本,将原样本和泛化样本汇集得到数据增强后的样本集合。
3.根据权利要求1所述的方法,其特征在于,所述利用第n代训练集和验证集训练案件特征提取模型,并利用测试集、验证集和训练集校验该案件特征提取模型,判定是继续进行第n+1代训练还是调整第n代训练集中伪标记数据的类别,包括:
根据第n代训练集和验证集训练案件特征提取模型,并利用该案件特征提取模型预测计算出该案件特征提取模型在训练集、验证集和测试集上的精准率、召回率和F1值;
当在训练集、验证集和测试集上的精准率、召回率和F1值均大于等于所设定的精准率、召回率和F1的阈值时,则认为当前的训练集和模型的准确度较高,进行第n+1代训练;否则,认为当前的训练集和对应的模型准确度不足,需要调整训练集中样本的类别。
4.根据权利要求3所述的方法,其特征在于,所述调整训练集中样本的类别的方法包括:
当训练集的精准率低于阈值时,则将置信度较低的部分正样本的类别调成负样本;当训练集的召回率较低时,则将置信度较低的部分负样本的类别调成正样本;当训练集的精准率和召回率均低于阈值时,则同时调整置信度较低的正样本和负样本的类别;
当验证集或测试集的精准率低于阈值时,则将置信度较低的部分正样本的类别调成负样本;当验证集或测试集的召回率较低时,则将置信度较低的部分负样本的类别调成正样本;当验证集或测试集的精准率和召回率均低于阈值时,则同时调整置信度较低的正样本和负样本的类别;
重复上述步骤直至训练集、验证集和测试集的精准率、召回率和F1值均大于等于所设定的对应阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国司法大数据研究院有限公司,未经中国司法大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110163512.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种裁判文书质量评测的方法和装置
- 下一篇:用于数字乳房造影成像的方法和系统