[发明专利]一种基于裁判文书的企业司法诉讼关系的构建方法及系统在审
申请号: | 202111283821.7 | 申请日: | 2021-11-01 |
公开(公告)号: | CN114118089A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 丁凯;刘岗;陈青山;龙腾;张彬;郭丰俊 | 申请(专利权)人: | 上海生腾数据科技有限公司;上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/211;G06F16/215;G06F16/31;G06F16/33;G06Q50/18 |
代理公司: | 上海双霆知识产权代理事务所(普通合伙) 31415 | 代理人: | 殷晓雪 |
地址: | 200436 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 裁判 文书 企业 司法 诉讼 关系 构建 方法 系统 | ||
1.一种基于裁判文书的企业司法诉讼关系的构建方法,其特征是,包括如下步骤:
步骤S10:采集裁判文书并进行格式整理;
步骤S20:对裁判文书进行数据预处理,并抽取裁判文书中的不同类型的实体信息;其中采用命名实体识别NER算法抽取当事人相关实体,采用字符串匹配算法抽取法院角色相关实体、金额相关实体、案件类型相关实体;
步骤S30:将裁判文书中抽取出的各种类型的实体信息根据预定义的实体关系类型,构建反映司法诉讼关系的实体关系。
2.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S10中,所述格式整理包括正文提取、标点符号转换和数字转换;所述正文提取是指根据HTML网页文件的标签和正则表达式提取裁判文书正文;所述标点符号转换是指将标点符号、半角字符、全角字符进行检测并进行统一格式的转换;所述数字转换是指将裁判文书中的涉及的中文大写的数字全部转换为阿拉伯数字。
3.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S10还包括对采集的裁判文书进行数据清洗,包括数据合法性清洗、检查数据一致性、消除无效数据、填充缺失数据中的一种或多种。
4.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S20中预处理及抽取当事人相关实体包括如下步骤:
步骤S21:制定当事人相关实体关键词词典,其中的关键词用来识别不同类型的当事人相关实体;
步骤S22:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落;
步骤S23:对当事人段落进行句子分割;
步骤S24:遍历所有句子,如果句子中出现当事人相关实体关键词词典中的关键词,则对该句子进行中文分词;否则忽略跳过该句子;
步骤S25:对分词后的句子进行词性标注,标注的词性用于训练NER算法;
步骤S26:对词性标注后的句子,利用训练好的NER算法提取文本中出现的人名和公司名;
步骤S27:根据当事人相关实体关键词词典中的关键词在NER算法提取的人名和公司名中找到当事人相关实体的具体内容。
5.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S20中预处理及抽取法院角色相关实体包括如下步骤:
步骤S41:制定法院角色相关实体关键词词典,其中的关键词用来识别不同类型的法院角色相关实体;
步骤S42:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落;
步骤S43:对案件判决段落进行句子分割;
步骤S45:遍历所有句子,如果句子中出现法院角色相关实体关键词词典中的关键词,则提取该关键词后续的字符串作为该关键词对应的法院角色相关实体的具体内容;否则忽略跳过该句子。
6.根据权利要求5所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S43和步骤S45之间还包括:步骤S44:去除句子中的空格。
7.根据权利要求1所述的基于裁判文书的企业司法诉讼关系的构建方法,其特征是,所述步骤S20中预处理及抽取金额相关实体包括如下步骤:
步骤S61:制定金额相关实体关键词词典,其中的关键词用来识别不同类型的金额相关实体;
步骤S62:对裁判文书进行段落划分;将裁判文书分为当事人段落、案件陈述段落、案件判决段落;
步骤S63:对案件判决段落进行句子分割;
步骤S64:遍历所有句子,提取出各句子中出现的金额数字;
步骤S65:如果某句子中含有金额数字,并且该句子或该句子的前一个句子中含有金额相关实体关键词词典中的关键词,则将该金额数字作为该关键词对应的金额相关实体的内容;如果某句子中含有金额数字,并且该句子和该句子的前一个句子中均没有金额相关实体关键词词典中的关键词,忽略跳过该句子;对于不含金额数字的句子,忽略跳过该句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海生腾数据科技有限公司;上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司,未经上海生腾数据科技有限公司;上海合合信息科技股份有限公司;上海临冠数据科技有限公司;上海盈五蓄数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111283821.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐受高温作用的安全阀结构
- 下一篇:语音控制电路及智能电视