[发明专利]文本编码器训练方法、类案检索方法、装置及电子设备在审
申请号: | 202310318021.7 | 申请日: | 2023-03-28 |
公开(公告)号: | CN116245167A | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 马奕潇;吴玥悦;刘奕群;苏炜航;艾清遥 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N3/0895 | 分类号: | G06N3/0895;G06N3/0455;G06F40/289;G06F18/22;G06F16/33 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 李茂家;周蕾 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 编码器 训练 方法 检索 装置 电子设备 | ||
1.一种文本编码器训练方法,其特征在于,包括:
获取案件集,所述案件集中包括多个案件组,每个案件组包括:互为同类案件的至少两个案件的案件信息以及至少两个案件各自对应的相似度信息,所述相似度信息是根据案件的判决信息与案件涉及的无歧义法条集合之间的相似度所确定的,不同案件组之间的案件互为异类案件,所述无歧义法条集合包括至少一个无歧义法条;
利用文本编码器对所述多个案件组中各个案件的案件信息进行编码,得到所述多个案件组中各个案件的案件特征;
根据所述多个案件组中各个案件的案件特征,确定每个案件组中至少两个案件之间的类内特征相似度,以及每个案件组中至少两个案件各自与异类案件之间的类间特征相似度;
根据所述类内特征相似度、所述类间特征相似度以及所述案件集的每个案件组中至少两个案件各自对应的相似度信息,确定对比学习损失,并基于所述对比学习损失,训练所述文本编码器。
2.根据权利要求1所述的方法,其特征在于,所述获取案件集,包括:
获取预设案件库中多个案件中每个案件的判决信息,以及获取所述预设案件库中每个案件涉及的无歧义法条集合,所述判决信息包括案件的判决原因;
根据所述预设案件库中每个案件的判决信息与每个案件涉及的无歧义法条集合中各个无歧义法条之间的相似度,确定预设案件库中每个案件对应的相似度信息;
根据所述预设案件库中每个案件对应的相似度信息,确定所述预设案件库中每个案件的同类案件;
根据所述预设案件库中每个案件的同类案件以及每个案件对应的相似度信息,确定至少一个训练批次的至少一个案件集。
3.根据权利要求2所述的方法,其特征在于,所述获取所述预设案件库中每个案件涉及的无歧义法条集合,包括:
获取所述预设案件库中多个案件涉及的多个原始法条,每个案件涉及至少一个原始法条;
将每个原始法条拆分为至少一个分支条款,并提取各个分支条款中的关键词,得到每个原始法条下的至少一个无歧义法条;
根据所述预设案件库中每个案件涉及的至少一个原始法条以及每个原始法条下的至少一个无歧义法条,确定所述预设案件库中每个案件涉及的无歧义法条集合。
4.根据权利要求2所述的方法,其特征在于,所述预设案件库中包括I个案件,I为正整数,所述根据所述预设案件库中每个案件对应的相似度信息,确定所述预设案件库中每个案件的同类案件,包括:
针对所述预设案件库中的第i个案件,从所述预设案件库中确定出与所述第i个案件涉及相同原始法条的J个初始同类案件,i≤I,J<I;
根据所述第i个案件对应的相似度信息以及所述J个初始同类案件对应的相似度信息,确定所述第i个案件与每个初始同类案件之间的相关性权重;
根据所述第i个案件与每个初始同类案件之间的相关性权重,从所述J个初始同类案件中确定出与所述第i个案件相关的同类案件。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第i个案件对应的相似度信息以及所述J个初始同类案件对应的相似度信息,确定所述第i个案件与每个初始同类案件之间的相关性权重,包括:
根据所述第i个案件对应的相似度信息,确定与所述第i个案件的判决信息相似度最大的第一无歧义法条,以及根据所述J个初始同类案件中第j个初始同类案件对应的相似度信息,确定与所述第j个初始同类案件的判决信息相似度最大的第二无歧义法条,j≤J;
在所述第一无歧义法条与所述第二无歧义法条相同的情况下,根据所述第i个案件涉及的无歧义法条集合与所述第j个初始同类案件涉及的无歧义法条集合之间的重合程度,确定所述第i个案件与所述第j个初始同类案件之间的相关性权重,所述重合程度与所述相关性权重正相关;或者,
在所述第一无歧义法条与所述第二无歧义法条不相同的情况下,根据所述第i个案件对应的相似度信息与所述第j个初始同类案件对应的相似度信息之间的相似度分数,以及所述重合程度,确定所述第i个案件与所述第j个初始同类案件之间的相关性权重,所述相似度分数与所述相关性权重正相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310318021.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烘干砂自动化装载装置
- 下一篇:一种可拆的液滴式数字PCR芯片