[发明专利]法律要素提取方法、装置和电子设备有效
申请号: | 202110279814.3 | 申请日: | 2021-03-16 |
公开(公告)号: | CN112784578B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 李东海;章毓文;石崇德 | 申请(专利权)人: | 北京华宇元典信息服务有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F16/35;G06N3/04;G06N3/08;G06Q50/18 |
代理公司: | 北京唐颂永信知识产权代理有限公司 11755 | 代理人: | 刘伟 |
地址: | 100080 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 法律 要素 提取 方法 装置 电子设备 | ||
本申请涉及一种法律要素提取方法、装置和电子设备。该法律要素提取方法包括:获取法律裁判文书;基于所述法律裁判文书的案由对所述法律裁判文书进行预处理;使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落;对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果;以及,基于根据法律知识图谱和要素提取需求配置的要素提取策略,对所述初步提取结果进行调整以获得法律要素的最终提取结果。这样,能够通过融合模型提取和规则提取来将自然语言理解技术与法律逻辑体系相结合,在使用尽量少的标注数据进行模型训练的基础上实现了从文书的自然语言描述中提取具体的法律概念。
技术领域
本申请涉及文本处理技术领域,更为具体地说,涉及一种法律要素提取方法、法律要素提取装置和电子设备。
背景技术
随着法律行业信息化建设的不断深入,不仅需要对海量数据的采集和治理,更需要计算机自动对案情要素进行梳理,能够为法官提供精确化的审判辅助。法律要素抽取是通过自然语言处理技术将法律案件描述中的重要事实描述自动抽取出来,并根据法律领域专家设计的案情要素体系进行分类。案情要素抽取的结果可以用于司法领域的实际业务需求中,例如案情摘要、类案推送、审判辅助以及知识推荐等。
在中国专利CN111597803A中提出了一种使用预设结构化抽取模型从刑事判决书的内容区块中提取判决结果要素的方法。首先从判决书中提取当事人名称和对应的内容区块,然后使用预设结构化抽取模型提取与当事人名称有关的判决结果要素,这种方法可以有效提取判决结果要素等特征较为明确的要素,但是对于一些表达方式多样化的法律要素提取效果较差。
在中国专利CN111783399A中提出了一种法律裁判文书的信息抽取方法,此方法针对现有规则提取的缺点,利用深度学习技术,构建了基于注意力机制的神经网络模型用于标签信息的提取,然后对提取结果进行数据格式的微调,可以提高法律要素提取的效率和准确度,但是这种方法完全依赖模型的提取结果,在模型训练过程中,通常需要大量的标注数据。
总而言之,现有的技术和方法对裁判文书的要素提取主要包括两大类方法,一类是传统的规则提取方法,即通过人工总结的规则进行法律要素的解析提取,这种方法不仅需要耗费大量的人力物力,而且准确率不高,尤其是面对一些较为复杂法律要素,总结规则较为困难。另一类是通过自然语言处理技术领域的神经网络模型进行提取,这种方法通常需要大量的标注数据,模型提取要素的效果依赖于标注数据的数量和质量。
因此,期望提供改进的法律要素提取方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种法律要素提取方法、装置和电子设备,其能够通过融合模型提取和规则提取来将自然语言理解技术与法律逻辑体系相结合,在使用尽量少的标注数据进行模型训练的基础上实现了从文书的自然语言描述中提取具体的法律概念。
根据本申请的一方面,提供了一种法律要素提取方法,包括:获取法律裁判文书;基于所述法律裁判文书的案由对所述法律裁判文书进行预处理;使用文本分类模型对所述法律裁判文书的自然段进行段落识别以获得待提取法律要素的候选段落;对所述候选段落结合用于法律要素提取的神经网络模型和正则表达式进行法律要素的初步提取以获得法律要素的初步提取结果;以及,基于根据法律知识图谱和要素提取需求配置的要素提取策略,对所述初步提取结果进行调整以获得法律要素的最终提取结果。
在上述法律要素提取方法中,获取法律裁判文书包括:获取初始法律裁判文书;以及,对所述初始法律裁判文书进行数据清洗。
在上述法律要素提取方法中,基于所述法律裁判文书的案由对所述法律裁判文书进行预处理包括:基于所述法律裁判文书的案由,通过可配置的正则表达式删除所述法律裁判文书中不包含法律要素的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华宇元典信息服务有限公司,未经北京华宇元典信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110279814.3/2.html,转载请声明来源钻瓜专利网。