[发明专利]一种基于遗传变异和半监督的案件特征提取方法及装置有效

专利信息
申请号: 202110163512.X 申请日: 2021-02-05
公开(公告)号: CN113378563B 公开(公告)日: 2022-05-17
发明(设计)人: 孙晓锐;艾中良;贾高峰;刘贤艳;杨哲 申请(专利权)人: 中国司法大数据研究院有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/247;G06F16/35;G06N3/08;G06Q50/18
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100070 北京市海淀区南四*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 遗传 变异 监督 案件 特征 提取 方法 装置
【权利要求书】:

1.一种基于遗传变异、半监督和强化学习的案件特征提取模型训练方法,其特征在于,包括以下步骤:

构建包含标注样本和未标注样本的初始样本集;

对初始样本集中的标注样本和未标注样本进行分词、去除停用词,得到分词后的样本数据集;

对分词后的样本数据集中的标注样本和未标注样本进行文本数据增强处理,得到对应的数据增强样本集合;

根据词向量生成模型,分别计算并生成数据增强样本集合中的标注样本和未标注样本的词向量集合;

利用词向量集合,构建并训练基于遗传变异、半监督和强化学习的案件特征提取模型;

所述训练基于遗传变异、半监督和强化学习的案件特征提取模型,包括:

利用数据集中的所有标注样本,训练一个基模型分类器;

利用基模型分类器对未标注样本进行预测,给出每个样本属于每一个类别的概率,得到第一代伪标记样本集合;

根据遗传变异原理构建第二代训练集、验证集和测试集;

利用第n代训练集和验证集训练案件特征提取模型,并利用测试集、验证集和训练集校验该案件特征提取模型,判定是继续进行第n+1代训练还是调整第n代训练集中伪标记数据的类别;

重复上述步骤,逐步扩充训练集,直至扩充迭代的代数或训练集的大小满足设定代数或大小;

其中,利用遗传变异原理构建第n代训练集Nn训,包括:

将产生的伪标记数据中的各类别样本分别筛选出来,得到各类别伪标记样本集合W11、W12…W1m,其中m表示类别的数量;

从第n-1代的i类别伪标记样本集合W1i中选择置信度最大的Nn训/m*0.8个本添加到第n代样本集合中,并根据置信度大小从第n-1代伪标记样本中随机选择Nn训/m*0.2个样本添加到第n代样本集合中;

依次从第n-1代伪标记样本集合中选择其它类别的样本添加到第n代样本集合中,构建第n代训练集。

2.根据权利要求1所述的方法,其特征在于,所述文本数据增强处理,包括:

利用word2vect方法训练得到同义词、近义词模型;

在通用同义词、近义词词典的基础上,利用生成的同义词、近义词模型构建司法领域的同义词、近义词词表;

对标注样本和未标注样本进行同义词、近义词替换,得到每一个样本对应的n个泛化样本,将原样本和泛化样本汇集得到数据增强后的样本集合。

3.根据权利要求1所述的方法,其特征在于,所述利用第n代训练集和验证集训练案件特征提取模型,并利用测试集、验证集和训练集校验该案件特征提取模型,判定是继续进行第n+1代训练还是调整第n代训练集中伪标记数据的类别,包括:

根据第n代训练集和验证集训练案件特征提取模型,并利用该案件特征提取模型预测计算出该案件特征提取模型在训练集、验证集和测试集上的精准率、召回率和F1值;

当在训练集、验证集和测试集上的精准率、召回率和F1值均大于等于所设定的精准率、召回率和F1的阈值时,则认为当前的训练集和模型的准确度较高,进行第n+1代训练;否则,认为当前的训练集和对应的模型准确度不足,需要调整训练集中样本的类别。

4.根据权利要求3所述的方法,其特征在于,所述调整训练集中样本的类别的方法包括:

当训练集的精准率低于阈值时,则将置信度较低的部分正样本的类别调成负样本;当训练集的召回率较低时,则将置信度较低的部分负样本的类别调成正样本;当训练集的精准率和召回率均低于阈值时,则同时调整置信度较低的正样本和负样本的类别;

当验证集或测试集的精准率低于阈值时,则将置信度较低的部分正样本的类别调成负样本;当验证集或测试集的召回率较低时,则将置信度较低的部分负样本的类别调成正样本;当验证集或测试集的精准率和召回率均低于阈值时,则同时调整置信度较低的正样本和负样本的类别;

重复上述步骤直至训练集、验证集和测试集的精准率、召回率和F1值均大于等于所设定的对应阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国司法大数据研究院有限公司,未经中国司法大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110163512.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top