[发明专利]文书间案情匹配方法、装置、设备及存储介质有效
申请号: | 202011481920.1 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112507079B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 段纪丁;杜倩云;王永康 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06Q50/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文书 案情 匹配 方法 装置 设备 存储 介质 | ||
本申请公开了一种文书间案情匹配方法、装置、设备及存储介质,本申请获取待匹配的两个案情片段及两个案情片段各自的案情特征,两个案情片段属于不同文书,获取每一案情片段的每一类型案情特征的匹配权重,针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果,基于此确定两个案情片段是否描述同一案情。本案考虑了文书内不同案情片段间各类型案情特征的差异性,基于此设置各类型案情特征的匹配权重,可以提高文书内可区分性高的案情特征在最终匹配结果中所占的比重,解决了由于不同案情片段的信息不均衡所导致的匹配结果不准确的问题。
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文书间案情匹配方法、装置、设备及存储介质。
背景技术
检察院办案人员在对卷宗文书进行案情梳理过程中,需要从卷宗内大量的文书(一般包括起诉意见书、讯问笔录和询问笔录)中去检索案情描述片段,并对检索到的案情描述片段进行匹配,确定描述同一案情的案情描述片段。一般情况下,需要将询问/讯问笔录中的案情描述片段,与起诉意见书中的案情描述片段进行匹配。
通常情况下,一份卷宗内包含了数起、甚至是数十起作案,卷宗内笔录文书数量通常也有数十份之多。所以抽取并关联卷宗内所有相关的案情描述片段,需要耗费办案人员大量的时间和精力。
发明内容
鉴于上述问题,提出了本申请以便提供一种文书间案情匹配方法、装置、设备及存储介质,以实现对文书间案情的自动匹配目的。具体方案如下:
一种文书间案情匹配方法,包括:
获取待匹配的两个案情片段及两个案情片段各自的案情特征,所述两个案情片段属于不同文书;
获取每一案情片段的每一类型案情特征的匹配权重,其中,一目标类型案情特征的匹配权重与所述案情片段所属文书中,各不同案情片段的所述目标类型案情特征间的差异性正相关;
针对待匹配的两个案情片段,按照各自的每一类型案情特征的匹配权重,进行同类型案情特征的匹配计算,得到每一类型案情特征的加权匹配结果;
基于各类型案情特征的加权匹配结果,确定待匹配的两个案情片段是否描述同一案情。
优选地,所述获取待匹配的两个案情片段及两个案情片段各自的案情特征,包括:
针对待匹配的两个目标文书,获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征;
对待匹配的两个目标文书间的案情片段进行两两组合,得到若干案情片段对,每一案情片段对作为一对待匹配的案情片段。
优选地,所述获取每一所述目标文书中的案情片段及所述案情片段对应的案情特征,包括:
将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签;
所述多标签抽取模型为利用标注有案情标签及其各类型案情特征标签的训练文书训练得到。
优选地,所述各类型案情特征标签包括:
案情要素标签、实体标签、地点槽标签中的至少一种,其中所述案情要素标签和所述实体标签嵌套于所述案情片段标签中,所述地点槽标签嵌套于所述案情要素标签和所述实体标签中。
优选地,所述将所述目标文书输入预训练的多标签抽取模型,得到模型从所述目标文书中抽取的案情片段标签,以及从所述案情片段标签中抽取的各类型案情特征标签,包括:
利用所述多标签抽取模型对所述目标文书进行编码,以及对设定的各标签进行编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011481920.1/2.html,转载请声明来源钻瓜专利网。