[发明专利]一种基于裁判文书的结构化处理方法有效
申请号: | 201711338564.6 | 申请日: | 2017-12-14 |
公开(公告)号: | CN108197163B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 武敏;姚斌;王珏 | 申请(专利权)人: | 上海银江智慧智能化技术有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/33;G06F16/35;G06K9/62 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 200120 上海市浦东新区中国(上海)*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 裁判 文书 结构 处理 方法 | ||
1.一种基于裁判文书的结构化处理方法,其特征在于,包括如下步骤:
(1)获取并存储裁判文书信息,并对裁判文书信息进行数据清洗;
(2)基于裁判文书的文本特征进行相关词库的构建与扩展,包括裁判文书专业词库的构建、触发词表的构建与词语标注;所述相关词库的构建与扩展具体如下:
(2.1)裁判文书专业词库的构建:对裁判及法律相关的专业词汇进行总结、分类,以及词性标注,从而形成自定义裁判文书词库;
(2.2)触发词表的构建与词语标注:触发词指对抽取任务起到标志、识别作用,用于激活抽取任务的词汇;通过对大量裁判文书文本特征和表述规律的分析,为每个抽取任务建立其相应的触发词,分为六类:
1)作为触发词表示其右边可能是实体;
2)作为右触发词表示其左边可能是实体;
3)作为左边界表示该词有可能是实体词条的第一个成分;
4)作为右边界表示当前实体词条有可能到此结束;
5)作为内含词表示其往往作为实体内部成分;
6)当前词单独作为一个实体;
针对裁判文本数据中实体的结构和用字特征以及以上六类触发词信息,设计有7个标注符号:b、m、e、l、r、o、s;其中b,m,e分别表示实体左边界、内含词、右边界;l、r分别表示实体的左触发词和右触发词;s表示单词实体;o表示非实体词;
(3)根据裁判文书的书写结构特征,对裁判文书文档进行模块标注处理;
(4)利用分隔标点和分隔词作为长句切分规则,采用正则表达式匹配规则对裁判文书中每个关键段落进行短句长句切分;
(5)根据裁判文书专用词库judgment.txt和停用词典stopword.txt对裁判文书进行处理,并结合触发词表的构建与词语标注将裁判文书数据表示为向量的形式;
(6)通过设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,完成裁判文书聚类,并得到案例的类标签;
(7)创建基于裁判文书内容的层次结构,根据不同种类的裁判文书设计出相应的提取规则,并利用其得到裁判文书的结构化处理结果。
2.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述步骤(1)具体为通过中国裁判文书网站获取裁判文书信息,存储在数据库中;并对获取到的裁判文书信息进行数据清洗,将裁判文书内容为空或描述字段过少、重复的文本数据进行删除;将标点符号、半角全角、术语缩写、拼写错误进行检测并且修正;其中,在数据库中的存储格式为裁判文书序号、裁判文书内容两个字段;裁判文书序号是自然编号,无特殊意义;裁判文书内容字段为CLOB字段,存放整篇的文书内容。
3.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述对裁判文书文档进行模块标注处理具体为将裁判文书文档各模块的标注分别为:标题、案号、首部、事实、理由、裁判依据、裁判结果、尾部和落款。
4.根据权利要求1所述的一种基于裁判文书的结构化处理方法,其特征在于:所述分隔标点包括为逗号,句号,分号;分隔词为不影响核心语义的修饰词、副词,作为一个词语的边界;所述短句长句的切分以标点符号为界,其中短句的切分以逗号及整理的分隔词词汇为界,长句的切分以分号、句号、段落标记为界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海银江智慧智能化技术有限公司,未经上海银江智慧智能化技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711338564.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:呈现业务交易情况的系统和方法
- 下一篇:业务数据保存方法及装置