[发明专利]司法文书的结构化分析方法及系统在审
| 申请号: | 201911364829.9 | 申请日: | 2019-12-26 |
| 公开(公告)号: | CN111145052A | 公开(公告)日: | 2020-05-12 |
| 发明(设计)人: | 陈浩 | 申请(专利权)人: | 北京法意科技有限公司 |
| 主分类号: | G06Q50/18 | 分类号: | G06Q50/18;G06F40/295;G06F16/80 |
| 代理公司: | 北京方韬法业专利代理事务所(普通合伙) 11303 | 代理人: | 党小林 |
| 地址: | 100000 北京市西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 司法 文书 结构 化分 方法 系统 | ||
本发明提供了一种司法文书的结构化分析方法及系统。所述方法包括:对预先构建信息项模型中的复杂信息项,构建关系模型,构建专家规则库,创建带标注的司法文书样本集;以司法文书样本集为输入,以文本片的内容特征为依据,输出文书切片模型;提取来源于各切片或已提取的信息项,基于规则与统计混合NLP结构化技术,构建文书信息项模型;将文书的切片及文书信息项模型输出为XML结构化文档。本发明提供的司法文书的结构化分析方法及系统能够将结构化分析方法应用于多个不同种类的司法文书,扩大结构化分析方法在司法文书分析领域的覆盖面。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种司法文书的结构化分析方法及系统。
背景技术
裁判文书信息结构化是通过技术手段将裁判文书的关键信息以结构化提取、表达和存储,是机器读懂和应用裁判文书的关键技术。
申请号为201711338564.6的中国发明专利申请,涉及一种基于裁判文书的结构化处理方法,采用自然语言处理技术和高级机器学习技术,自动实现基于案由文本的关键词提取的案件类型分类,从而通过构建案件层次结构和设计的提取规则进行结构化处理,本发明通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,并得到案例的类标签;根据不同案例类型创建不同层次框架,结合设计的提取规则,得到裁判文书的结构化处理。该发明通过基于关键词的文本分片方法,对分片局部进行精准关键词判断,在此基础上利用分片内部分词聚类的方法,获取裁判文书为单位的信息项提取结果。
申请号为201910237329.2的中国发明专利申请,首先以引入法律名称和司法相关专业性词汇表用于分词,并且进行人工复检来构建司法专业词汇标注表;然后通过将构建司法专业词汇标注词典和大规模的用户词典,进行分词,去除停用词等方法,获取词语;并且采集统计各类纠纷与案由的关键词搜索词汇,共同组成候选关键词;其次,加入标题词权重和词语全局性权重值方法修正候选关键词TF_IDF的权值,如果待提取的文档中未含有候选关键词,那么采用文档中每个词的TF_IDF归一化值作为TextRank算法初始权值输入,得到最终的词语权值。该发明可以较好地匹配司法文本数据,匹配性高,适用于大部分的司法文本数据;并且加快了提取速度,同时提取准确度高。
在针对一个信息项对象存在于图谱之中(比如犯罪金额归属于某个犯罪人的某个罪名之下),并且出现多处关于该信息项具体结果值描述(一个犯罪金额或在裁判文书的多个部位都有描述,并且描述的结果可能还不一致),需要通过对法官认定态度进行判断并输出最终法院认定结果的场景,不具有可行性。而在裁判文书开展法律数据分析、法律业务辅助时,更多的场景是指向上述情况,因此,上述发明的应用范围具有较大局限性。
发明内容
本发明要解决的技术问题是提供一种司法文书的结构化分析方法及系统,能够将结构化分析方法应用于多个不同种类的司法文书,扩大结构化分析方法在司法文书分析领域的覆盖面。
为解决上述技术问题,本发明提供了一种司法文书的结构化分析方法,所述方法包括:根据不同案件类型司法文书的书写规范与文书结构,按法院的业务标准,将文书由粗到细切分为多层级的文本切片,生成文书切片模型,其中,案件类型包括:刑事、民事、行政、执行、赔偿;分析法律标准和法院业务需求,确定司法文书中包含的信息项及信息项之间的隶属关系,生成文书信息项模型;对预先构建信息项模型中的复杂信息项,构建关系模型,构建专家规则库,创建带标注的司法文书样本集;以司法文书样本集为输入,以文本片的内容特征为依据,输出文书切片模型;提取来源于各切片或已提取的信息项,基于规则与统计混合NLP结构化技术,构建文书信息项模型;将文书的切片及文书信息项模型输出为XML结构化文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京法意科技有限公司,未经北京法意科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911364829.9/2.html,转载请声明来源钻瓜专利网。





