[发明专利]一种基于裁判文书的法律类案问题分析方法及装置有效
申请号: | 201711142734.3 | 申请日: | 2017-11-17 |
公开(公告)号: | CN107818175B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 赖华平;王祯;杨宝英 | 申请(专利权)人: | 厦门能见易判信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06Q50/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 裁判 文书 法律 问题 分析 方法 装置 | ||
1.一种法律类案问题智能预判方法,其特征在于,包括以下步骤:
步骤A1,设置裁判文书数据库和特征数据库,该裁判文书数据库包括用于存储裁判文书案例信息及索引的裁判文书库,该特征数据库中设一第一特征数据库、一第二特征数据库,用于按比例存储经过特征提取、特征处理后的文书数据,所述特征数据库还包括一分别与第一、第二特征数据库连接的第二更新接口,该第二更新接口用于实时执行第一、第二特征数据库中数据的更新实现包括所述特征数据库中特征信息的添加、删除和修改;
步骤A2,在所述裁判文书数据库中预先录入裁判文书信息及以案号为索引并保存,所述裁判文书数据库还包括一与裁判文书数据库连接、用于执行裁判文书数据库中数据更新的文书库更新接口,实现包括文书的添加、删除和修改:
步骤A3,在所述特征数据库中设一第一特征数据库,一第二特征数据库:
步骤A4,基于法律团队提炼的类案关键词,对裁判文书数据库中裁判文书逐篇采用自然语言处理技术进行特征提取:
步骤A5,根据裁判文书总数量,按比例将经过特征提取的文书存入第一、第二特征数据库作为训练集和测试集;
步骤A6,对第一、第二特征数据库进行特征处理,并将处理后的数据存入原特征库,获得用于后续建模的精确数据;
所述步骤A6中,特征处理的具体过程包括:
步骤A61,确定特征数据数据类型、各特征数据缺失比例及各特征是否有相关关系,根据三者的不同选择是采取直接删除、依据完整部分特征值进行填补还是多元分析技术,所述步骤A61包括:确定特征是数值型数据还是分类型数据,基于不同的数据类型采取不同的处理办法:计算各特征数据的数据缺失比例,缺失比例超过50%直接删除该特征,低于该比例的基于缺失模式的不同选择是依据完整的数据进行填补还是选择多元分析方法处理;计算数值型数据两两之间的相关性,对于缺失比例较高又存在相关特征的直接删除;
步骤A62,对数值型数据进行范围分析,对超出数值范围的异常点进行检测,决定保留还是丢弃:
步骤A63,获得最终特征数据;
步骤A7,导入第一特征数据库作为训练集,根据目标特征的数据类型选择合适的算法拟合数据构建模型,所述步骤A7中,判断目标特征的数据类型是数值型数据还是分类型数据,对于数值型数据选取回归算法进行建模,对于分类型数据选取分类算法进行建模,生成预判模型:
步骤A8,导入第二特征库数据作为所述预判模型的测试集,对所述预判模型准确率进行测试,根据准确率的高低决定是丢弃模型还是保留模型,或者作为整合模型的基础,从而确定最终的模型:
步骤A9,接收用户法律问题,包括案件类型和案例信息,将案例信息拆解成相应类案的特征信息,并导入上述最终的模型中进行预判:
步骤A10,向用户发送预判结果。
2.如权利要求1所述的方法,其特征在于:所述第一特征数据库用于存储经过特征提取后80%的文书数据,第二特征数据库用于存储经过特征提取后20%的文书数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门能见易判信息科技有限公司,未经厦门能见易判信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711142734.3/1.html,转载请声明来源钻瓜专利网。