[发明专利]一种基于裁判文书的企业司法诉讼关系的构建方法及系统在审
申请号: | 202111283821.7 | 申请日: | 2021-11-01 |
公开(公告)号: | CN114118089A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 丁凯;刘岗;陈青山;龙腾;张彬;郭丰俊 | 申请(专利权)人: | 上海生腾数据科技有限公司;上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/211;G06F16/215;G06F16/31;G06F16/33;G06Q50/18 |
代理公司: | 上海双霆知识产权代理事务所(普通合伙) 31415 | 代理人: | 殷晓雪 |
地址: | 200436 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 裁判 文书 企业 司法 诉讼 关系 构建 方法 系统 | ||
本申请公开了一种基于裁判文书的企业司法诉讼关系的构建方法,包括如下步骤。步骤S10:采集裁判文书并进行格式整理。步骤S20:对裁判文书进行数据预处理,并抽取裁判文书中的不同类型的实体信息;其中采用命名实体识别NER算法抽取当事人相关实体,采用字符串匹配算法抽取法院角色相关实体、金额相关实体、案件类型相关实体。步骤S30:将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系。本申请针对裁判文书的结构特点彻底全面地进行文本结构化分析处理,可以全面、完整、准确地构建出企业的司法诉讼关系。
技术领域
本申请涉及一种文本结构化分析方法,尤其是涉及一种基于裁判文书的文本结构化分析方法,用于构建企业司法诉讼关系。
背景技术
裁判文书也称判决文书,记载了人民法院审理司法案件的过程和结果。随着我国司法数据的公开,越来越多的司法案件判决信息以网页的形式发布出来,各大法律数据库内的裁判文书都达到了千万级别。虽然公众可以通过互联网查询的形式阅读案件,但裁判文书仍以大段文本描述的形式进行组织,因此人们对于案件的检索、分析和利用都变得困难。裁判文书虽然具有一定的文书样式,但是对于判决文书中涉及的多种实体(例如案件类型、冻结金额、受理费、原告、被告、判决法院、法院等级、法院地点、案件类型等主要字段)及实体关系(例如原告-负责人、原告-委托代理人、姓名-角色-律师-律所等主要关系)的信息,仍然以自然行文的形式或以语义逻辑的关系包含在裁判文书中。如何获取裁判文书中的实体、以及由这些实体构成的司法诉讼关系,这项工作目前是通过人工阅读整理来完成的。但是人工整理不仅需要熟悉相关知识的专业人员,而且效率相对很低。在此环境下,利用计算机快速有效地挖掘和分析司法案件的信息抽取技术逐渐受到了广大研究者的关注,尤其是司法案件的文本结构化分析技术。
目前,通过信息抽取进行文本结构化的技术已经有了大量的研究工作,主要包括基于规则的方法、基于机器学习的方法等。但是对于裁判文书这种具有很强的领域性知识问题,无法直接将其他领域方法直接复制到裁判文书的信息抽取中。此外,目前针对裁判文书信息化抽取的研究相对较少。
裁判文书的结构化处理是对裁判案件数据分析的前提,不仅需要成熟的信息抽取技术,还需要制定司法领域专业的数据处理服务。因此其他领域的文本结构化方法、规则往往难以直接复制到裁判文书的结构化上。而现有的针对裁判文书的信息抽取仅仅抽取裁判文书中某一字段信息或某些字段信息,对裁判文书信息的抽取不够全面;并且现有的文本结构化抽取,往往只是将裁判文书中各信息字段抽取,并未构造实体诉讼关系。
发明内容
本申请所要解决的技术问题是提出一种基于裁判文书的企业司法诉讼关系的构建方法,自动化抽取裁判文书中的实体、构造企业司法诉讼关系。为此,本申请还要提出一种相应的基于裁判文书的企业司法诉讼关系的构建系统。
为解决上述技术问题,本申请提供了一种基于裁判文书的企业司法诉讼关系的构建方法,包括如下步骤。步骤S10:采集裁判文书并进行格式整理。步骤S20:对裁判文书进行数据预处理,并抽取裁判文书中的不同类型的实体信息;其中采用命名实体识别NER算法抽取当事人相关实体,采用字符串匹配算法抽取法院角色相关实体、金额相关实体、案件类型相关实体。步骤S30:将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系。上述方法针对裁判文书的结构特点进行文本结构化分析处理,彻底全面地提取当事人相关实体、法院角色相关实体、金额相关实体、案件类型相关实体信息,可以全面、完整、准确地构建出企业的司法诉讼关系。
进一步地,所述步骤S10中,所述格式整理包括正文提取、标点符号转换和数字转换;所述正文提取是指根据HTML网页文件的标签和正则表达式提取裁判文书正文;所述标点符号转换是指将标点符号、半角字符、全角字符进行检测并进行统一格式的转换;所述数字转换是指将裁判文书中的涉及的中文大写的数字全部转换为阿拉伯数字。这是一种示例性的优选实现方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海生腾数据科技有限公司;上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司,未经上海生腾数据科技有限公司;上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111283821.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐受高温作用的安全阀结构
- 下一篇:语音控制电路及智能电视