[发明专利]一种基于遗传变异和半监督的案件特征提取方法及装置有效
申请号: | 202110163512.X | 申请日: | 2021-02-05 |
公开(公告)号: | CN113378563B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 孙晓锐;艾中良;贾高峰;刘贤艳;杨哲 | 申请(专利权)人: | 中国司法大数据研究院有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F16/35;G06N3/08;G06Q50/18 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100070 北京市海淀区南四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 变异 监督 案件 特征 提取 方法 装置 | ||
本发明的目的在于解决标注数据较少情况下的案件特征提取问题,提出一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置。该方法利用遗传变异算法将半监督和强化学习粘合在一起,在没有人为指导的情况下,通过不断的试错学习,克服了传统半监督学习容易过拟合问题,实现了在较少标注数据情况下案件特征的精准提取。具体包括构建样本数据集,并利用分词工具和词向量生成模型获取模型训练所需的输入词向量,将词向量注入基于遗传变异、半监督和强化学习的案件特征提取模型并训练,获取案件特征提取模型。通过输入在办文书,判断当前案件的案件特征。
技术领域
本发明是一种案件特征提取方法,具体涉及一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置,属于自然语言处理和深度学习领域。
背景技术
案件特征是法官审理案件的依据,而往往法官在审理案件过程中,针对不同案由、案情梳理案件脉络,占据了法官案件审理过程中的大量时间和精力。所以,帮助法官快速梳理案件的主要案情特征,能大大减少法官的审理时间、提升办案效率,有利于缓解案多人少矛盾。
较早的案件特征提取主要依赖于人工制订的规则,即当文本内容满足了一定的条件,则认为存在相应的案件特征。虽然取得了阶段性的成果,但是它必须依靠人工的方式来制定案件特征提取规则,需要大量法律专家和知识工程师的参与,同时难以保证梳理的知识与规则的正确性与一致性。随着机器学习技术的发展,出现了一些基于有监督分类和无监督聚类的案件特征提取方法。作为分类方法的两大分支,有监督分类和无监督聚类都有各自的优缺点。对于有监督分类来说,因为存在大量有类别标记的样本作为监督学习信息,训练得到的分类模型对于未标注样本的预测准确性较高。但在司法领域中,有类别标记的数据却不多,手工对无类别标记的数据进行人工标定需要耗费大量的人力与物力。对无监督聚类来说,它不需要知道数据的类别标签,然而,由于缺少先验信息的指导,其性能还有待于进一步提高。在这种情况下,基于少量标注数据和大量未标记数据的半监督学习应运而生。因此,在本发明中,我们利用遗传变异算法将半监督和强化学习粘合在一起,在没有人为指导的情况下,通过不断的试错学习,克服了传统半监督学习容易过拟合问题,实现了在较少标注数据情况下案件特征的精准提取。
发明内容
本发明是一种基于遗传变异、半监督和强化学习的案件特征提取方法,包括构建样本数据集,并利用分词工具和词向量生成模型获取模型训练所需的输入词向量,将词向量注入基于遗传变异、半监督和强化学习的案件特征提取模型并训练,获取案件特征提取模型。通过输入在办文书,判断当前案件是否具有某一案情特征。本发明方法能够从语义理解的角度梳理当前案件的案情特征,能够提高法官办案质量和效率。
一种基于遗传变异、半监督和强化学习的案件特征提取模型训练方法,包括以下步骤:
步骤(1)获取初始样本集:初始样本集包括若干标注样本和大量未标注样本。
步骤(2)获取分词后的数据集:对初始样本集中的标注样本和未标注样本进行分词、去除停用词,得到分词后的样本数据集。
步骤(3)对样本数据进行增强:对分词后的样本数据集中的标注样本和未标注样本进行文本数据增强处理,得到对应的数据增强样本集合。
步骤(4)生成模型的输入词向量:根据词向量生成模型,分别计算生成数据增强样本集合中的标注样本和未标注样本的词向量集合。
步骤(5):利用词向量集合,构建并训练基于遗传变异、半监督和强化学习的案件特征提取模型。
一种基于遗传变异、半监督和强化学习的案件特征提取方法,包括以下步骤:
步骤(6):对在办案件的目标文书进行解构,获取在办案件的犯罪事实。
步骤(7):根据步骤(6)生成的在办案件的犯罪事实,利用向量生成模型,得到在办案件的目标文书的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国司法大数据研究院有限公司,未经中国司法大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110163512.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种裁判文书质量评测的方法和装置
- 下一篇:用于数字乳房造影成像的方法和系统