[发明专利]文本编码器训练方法、类案检索方法、装置及电子设备在审
申请号: | 202310318021.7 | 申请日: | 2023-03-28 |
公开(公告)号: | CN116245167A | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 马奕潇;吴玥悦;刘奕群;苏炜航;艾清遥 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N3/0895 | 分类号: | G06N3/0895;G06N3/0455;G06F40/289;G06F18/22;G06F16/33 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 李茂家;周蕾 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 编码器 训练 方法 检索 装置 电子设备 | ||
本公开涉及文本编码器训练方法、类案检索方法、装置及电子设备,文本编码器训练方法包括:获取多个案件组,每个案件组包括至少两个案件的案件信息以及对应的相似度信息;利用文本编码器对各个案件的案件信息进行编码,得到各个案件的案件特征;根据各个案件的案件特征,确定每个案件组中的类内特征相似度以及每个案件与异类案件的类间特征相似度;根据类内特征相似度、类间特征相似度以及案件对应的相似度信息,确定对比学习损失并基于对比学习损失训练文本编码器。根据本公开实施例,能够引入细粒度的法律知识训练文本编码器,使训练后的文本编码器输出高质量的案件特征,进而提高类案检索的准确性,同时使检索出的同类案件具有可解释性。
技术领域
本公开涉及计算机技术领域,尤其涉及一种文本编码器训练方法、类案检索方法、装置及电子设备。
背景技术
类案检索的定义是:给定查询案件,在候选案件库中检索出与查询案件相关的同类案件,同类案件(类案)通常指要件事实、案情事实相同或相似的案件。对现代的司法系统而言,类案检索对确保同案同判、促进司法公正有着重要的意义,同类案件可以作为裁判案件的参考依据。
近年来,由于预训练语言模型(Pre-trained language model,PLM)在自然语言处理任务和检索任务中均取得了较好的效果,因此,将PLM技术引入到法律案件的类案检索中应运而生,如何基于PLM提升类案检索任务的性能,成为了当下的一个研究热点,针对该问题,现有的一种方案是在BERT(一种PLM)的基础上提出了BERT-XS,也即一种利用法律文书进行预训练的BERT模型,BERT-XS与BERT采用了同样的模型结构,只不过是训练语料换成法律文书;另一种方案是采用Lawformer,也即一种基于Longformer模型提出的法律领域的PLM,这种模型考虑到了法律长文本的特性,因此扩充了文本输入的长度限制,同时结合了全局与局部的注意力机制来帮助模型捕获长文本的上下文信息。
但上述两种现有技术均没有深度结合法律知识来优化模型,仅仅是将训练语料替换为了法律文本,或者针对文本长度这种表面特征进行优化,本质上还是采用了通用的PLM,而法律文本之间相关性需要更强的法律知识,这与传统意义上的文本相关性存在着明显的区别,这就使得上述PLM并没有真正从法律层面理解类案这个概念,从而使PLM在进行类案检索时的准确性较低,同时检索出的类案也缺乏好的可解释性。
发明内容
有鉴于此,本公开提出了一种文本编码器训练方法、类案检索方法、装置及电子设备,能够引入细粒度的法律知识训练文本编码器,使训练后的文本编码器输出高质量的案件特征,从而在利用训练后的文本编码器输出的案件特征进行类案检索时,能够有效提高类案检索的准确性,同时使检索出的同类案件是基于法律知识确定出的具有可解释性的案件。
根据本公开的一方面,提供了一种文本编码器训练方法,包括:获取案件集,所述案件集中包括多个案件组,每个案件组包括:互为同类案件的至少两个案件的案件信息以及至少两个案件各自对应的相似度信息,所述相似度信息是根据案件的判决信息与案件涉及的无歧义法条集合之间的相似度所确定的,不同案件组之间的案件互为异类案件,所述无歧义法条集合包括至少一个无歧义法条;利用文本编码器对所述多个案件组中各个案件的案件信息进行编码,得到所述多个案件组中各个案件的案件特征;根据所述多个案件组中各个案件的案件特征,确定每个案件组中至少两个案件之间的类内特征相似度,以及每个案件组中至少两个案件各自与异类案件之间的类间特征相似度;根据所述类内特征相似度、所述类间特征相似度以及所述案件集的每个案件组中至少两个案件各自对应的相似度信息,确定对比学习损失,并基于所述对比学习损失,训练所述文本编码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310318021.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烘干砂自动化装载装置
- 下一篇:一种可拆的液滴式数字PCR芯片