[发明专利]文件检查方法、设备及存储介质在审
申请号: | 202111607898.5 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114254625A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 沈云;陈洲;卞珊;朱斌;王晨阳;张志恒;何永龙;陈立 | 申请(专利权)人: | 国泰新点软件股份有限公司 |
主分类号: | G06F40/226 | 分类号: | G06F40/226;G06F40/194;G06K9/62;G06F40/289 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 许冬莹 |
地址: | 215600 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 检查 方法 设备 存储 介质 | ||
1.一种文件检查方法,其特征在于,所述方法包括:
获取样本数据;
使用所述样本数据训练得到文件检查模型,所述文件检查模型包括条款匹配子模型、相似度对比子模型、敏感词子模型以及融合子模型;
获取预设负面清单、预设文件模板以及待检查文件;
将所述预设文件模板、所述预设负面清单和所述待检查文件输入所述文件检查模型,得到文件检查结果;其中,所述条款匹配子模型用于对所述预设负面清单和所述待检查文件进行匹配,得到负面条款匹配结果;所述相似度对比子模型用于对所述待检查文件和所述预设文件模板进行相似度对比,得到对比结果;所述敏感词子模型用于对所述待检查文件进行敏感词检查,得到敏感词检查结果;所述融合子模型用于对所述条款匹配结果、所述敏感词检查结果以及所述对比结果进行融合,得到文件检查结果。
2.根据权利要求1所述的方法,其特征在于,所述对比结果包括所述预设文件模板与所述待检查文件的差异行、纠错行以及对比记录。
3.根据权利要求2所述的方法,其特征在于,所述相似度对比子模型对所述待检查文件和所述预设文件模板进行相似度对比,包括:
对所述预设文件模板和所述待检查文件进行逐行对比,得到所述预设文件模板和所述待检查文件之间的差异行以及差异记录;
获取预设相似度值;
从所述预设文件模板和所述待检查文件之间差异行中,确定相似度值大于或等于所述预设相似度值的差异行,得到所述纠错行;
基于所述纠错行生成所述对比记录。
4.根据权利要求3所述的方法,其特征在于,所述基于所述纠错行生成所述对比记录,包括:
对所述纠错行进行分词对比,得到分词对比结果;
基于所述分词对比结果对所述纠错行进行纠错,得到纠错记录;
基于所述纠错记录和所述差异记录,得到对比记录。
5.根据权利要求2所述的方法,其特征在于,所述对所述预设文件模板和所述待检查文件进行逐行对比之前,还包括:
将所述预设文件模板和所述待检查文件按照章节标题进行拆分,得到对应的章节标题合集和段落合集,所述章节标题合集包括至少一个章节标识和每个章节标识对应的章节文本,段落合集包括每个章节标识对应的至少一个文本段落;
所述对所述预设文件模板和所述待检查文件进行逐行对比,包括:
对于所述章节标题合集中章节标识相同的章节文本,将所述预设文件模板的章节文本与所述待检查文件的章节文本进行对比,得到章节标题差异行以及章节标题差异记录;
对于所述段落合集中章节标识相同的文本段落,将所述预设文件模板的文本段落与所述待检查文件的文本段落进行对比,得到段落差异行以及段落差异记录。
6.根据权利要求1所述的方法,其特征在于,所述敏感词子模型对所述待检查文件进行敏感词检查,得到敏感词检查结果,包括:
获取敏感词词库;
将所述待检查文件与所述敏感词词库进行文本对比,得到敏感词检查结果。
7.根据权利要求1所述的方法,其特征在于,所述融合子模型对所述条款匹配结果、所述敏感词检查结果以及所述对比结果进行融合,得到文件检查结果,包括:
将所述条款匹配结果、所述敏感词检查结果以及所述对比结果按照预设模板拼接,得到所述文件检查结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰新点软件股份有限公司,未经国泰新点软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111607898.5/1.html,转载请声明来源钻瓜专利网。