[发明专利]司法文书的结构化分析方法及系统在审
| 申请号: | 201911364829.9 | 申请日: | 2019-12-26 |
| 公开(公告)号: | CN111145052A | 公开(公告)日: | 2020-05-12 |
| 发明(设计)人: | 陈浩 | 申请(专利权)人: | 北京法意科技有限公司 |
| 主分类号: | G06Q50/18 | 分类号: | G06Q50/18;G06F40/295;G06F16/80 |
| 代理公司: | 北京方韬法业专利代理事务所(普通合伙) 11303 | 代理人: | 党小林 |
| 地址: | 100000 北京市西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 司法 文书 结构 化分 方法 系统 | ||
1.一种司法文书的结构化分析方法,其特征在于,包括:
根据不同案件类型司法文书的书写规范与文书结构,按法院的业务标准,将文书由粗到细切分为多层级的文本切片,生成文书切片模型,其中,案件类型包括:刑事、民事、行政、执行、赔偿;
分析法律标准和法院业务需求,确定司法文书中包含的信息项及信息项之间的隶属关系,生成文书信息项模型;
对预先构建信息项模型中的复杂信息项,构建关系模型,构建专家规则库,创建带标注的司法文书样本集;
以司法文书样本集为输入,以文本片的内容特征为依据,输出文书切片模型;
提取来源于各切片或已提取的信息项,基于规则与统计混合NLP结构化技术,构建文书信息项模型;
将文书的切片及文书信息项模型输出为XML结构化文档。
2.根据权利要求1所述的司法文书的结构化分析方法,其特征在于,以司法文书为输入,以文本片的内容特征为依据,输出文书切片模型,包括:
对文书的关键特征进行初步扫描,先识别出文书所属的案件类型以及文书类型,其中,关键特征包括:案号、文书类型、审判员;
根据步骤识别的结果,分析引擎调用相应的切分规则和算法,进行一级文本片切分;
分析引擎调用相应的切分规则和算法进行二级文本片的切分;
根据信息项提取对段落切分颗粒度大小的要求,决定是否要进行细切;
如果不需要细切,根据各文本片特征以及切片方法,将整篇文书进行层层切分后,以树状结构加入文书切片模型中。
3.根据权利要求1所述的司法文书的结构化分析方法,其特征在于,提取来源于各切片或已提取的信息项,基于规则与统计混合NLP结构化技术,构建文书信息项模型,包括:
根据识别到的案件及文书类型,加载相应的专家规则及算法模型;
采用NLP技术对切片中的句子进行分词、词性标注、句法依存分析,将切片按自然段、句子构建出树状结构;
根据命名实体的类别,采用对应的识别算法识别命名实体;
以专家规则和深度学习相结合的方式对非事实实体进行过滤;
执行命名实体的指代消解和对齐;
通过从不同句子分别构建实体三元组,最终组合成文本片的关系图,以识别出实体与实体之间的关系;
根据三元组对象集合,以实体为节点、关系为边构建人-行为-实体等关系的有向图结构的三元组图谱,进而通过图的推理,识别出实体间距离更远的关系;
各切片完成各自对应的信息项模型构建后,文书解析器将各逻辑段信息项模型组装成文书信息项模型。
4.根据权利要求3所述的司法文书的结构化分析方法,其特征在于,采用NLP技术对切片中的句子进行分词、词性标注、句法依存分析,将切片按自然段、句子构建出树状结构,包括:
对司法文书内容进行预处理,清除干扰项;
基于司法文书的常用表述,采用模式匹配的方式将句子进行压缩;
以句子为单位,进行分词及词性标注;
对分词及词性标注结果进行修正;
对句子进行依存句法分析。
5.根据权利要求3所述的司法文书的结构化分析方法,其特征在于,以专家规则和深度学习相结合的方式对非事实实体进行过滤,包括:
采用专家规则进行非事实实体过滤;
采用深度学习进行非事实实体过滤。
6.根据权利要求3所述的司法文书的结构化分析方法,其特征在于,执行命名实体的指代消解和对齐,包括:
构建人名、金额等实体的指代词库,采用模式匹配的方式,从句法依存关系中分析依赖成分缺失或指代的部份,进行前向搜索,以完成实体的补齐;
执行相同实体的对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京法意科技有限公司,未经北京法意科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911364829.9/1.html,转载请声明来源钻瓜专利网。





