[发明专利]一种法律文书自动识别、生成系统及其方法在审
申请号: | 201910696842.8 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110390000A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 许敏;朱雅都;徐春林;黄尚强;陈泉吉;黄俊凯;李娟 | 申请(专利权)人: | 同方赛威讯信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06Q50/18 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 李洁 |
地址: | 610000 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子源文件 文本信息 业务系统 自动识别 预处理 处理模块 生成模块 生成系统 校验 数据源 录入 法律 导入处理模块 出错概率 辅助人工 工作效率 关键信息 映射关系 校对 抽取 案件 转换 受理 转化 | ||
1.一种法律文书自动识别、生成系统,其特征在于,包括识别模块、处理模块和生成模块,其中:
识别模块,用于将法律文书转化电子源文件,并将电子源文件导入处理模块;
处理模块,对导入的电子源文件进行预处理,定位关键词并提取文本信息;
生成模块,从对接的业务系统中抽取数据源,所述数据源与所述关键词分别一一对应,并建立所述文本信息与数据源的映射关系,生成预填录界面,通过人工校验和确认后,自动填录入业务系统。
2.根据权利要求1所述的一种法律文书自动识别、生成系统,其特征在于,所述处理模块包括:
预处理单元,其配置成用于进行文本清洗以及文本格式化;
提取关键词单元,根据对接的业务系统中的提取项模板配置提取关键词,定位关键词的位置,并根据设定的匹配规则提取文本信息。
3.一种法律文书自动识别、生成方法,其特征在于,包括:
步骤S100:将法律文书转换成能够被选择、复制和检索文字的电子源文件;
步骤S200:对电子源文件进行预处理,定位关键词并提取文本信息;
步骤S300:将所述文本信息与对接的业务系统中的数据源建立映射关系,生成预填录界面辅助人工校验,校验通过后,填录入与系统对接的业务系统。
4.根据权利要求3所述的一种法律文书自动识别、生成方法,其特征在于,所述步骤S100包括:
如果法律文书为纸质法律文书,需要对纸质法律文书采用高拍仪扫描、识别并转换为双层PDF文档后,进入下一步;
如果法律文书是电子版法律文书,所述电子版法律文书为Word文档、Wps文档或双层PDF文档,直接进入下一步。
5.根据权利要求3所述的一种法律文书自动识别、生成方法,其特征在于,所述预处理包括文本清洗和文本格式化,其中:
文本清洗包括编码转换、去空格、去非法字符、缺失关键词补充修正;
文本格式化包括分块、分段和分句,其中分块是根据文本分块标志进行分块,所述分段是按照段落符号进行划分,所述分句以标点符号作为分隔符号,将句子分成一个个的短句。
6.根据权利要求5所述的一种法律文书自动识别、生成方法,其特征在于,所述定位关键词并提取文本信息具体包括:
根据对接的业务系统中数据源的需求,建立关键词词典,定位关键词所在的分块、段落和短句;
从所述短句中确定句子主语,根据预设的抽取项模板,进行文本信息抽取;
将抽取的文本信息进行数据转换后输出文本信息,建立文本信息与数据源的对应关系。
7.根据权利要求5所述的一种法律文书自动识别、生成方法,其特征在于,所述步骤S300具体包括:
步骤S310:从对接的业务系统中抽取数据源,生成预填录界面,所述预填录界面展示数据源及数据源对应的文本信息,预填录界面还加载展示文书原始信息;
步骤S320:对预填录界面进行校验,包括:
自动校正:根据对接的业务系统的填录标准进行校验,将文本信息进行自动校正,并进行已校正提示;
设置默认值:提供默认值选项,用于在对应的文本信息未提取到时,将默认值填入;
手动填录:提示用户填录该项,用户手动填录或者将预填录界面的文书原始信息直接拖拽到该选项;
自动复制:提示可复制项,用于将用户填入的内容自动复制到其他名称相同的选项中;
步骤S330:将经过人工校验后文本信息自动填录入对接的业务系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方赛威讯信息技术有限公司,未经同方赛威讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910696842.8/1.html,转载请声明来源钻瓜专利网。