[发明专利]识别文档的方法和装置有效
申请号: | 202110440033.8 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113111829B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 徐青松;李青 | 申请(专利权)人: | 杭州睿胜软件有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 马景辉 |
地址: | 310053 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 文档 方法 装置 | ||
本公开涉及一种识别文档的方法,包括:获取包含文档的图像;根据所述文档的图像和多个候选类型模型确定所述文档的类型;以及根据与所述文档的类型对应的提取模型,从所述文档的图像中提取所述文档中包含的第一信息作为识别结果。
技术领域
本公开涉及一种识别文档的方法和装置。
背景技术
在企业的工作中,很多岗位需要处理大量文件,例如财务、法务、人事等。随着电子办公平台的发展,这些文件需要扫描或拍照,以保存为电子版。此外,还需要人员手动输入文件中的各种关键信息。
发明内容
根据本公开的第一方面,提供了一种识别文档的方法,包括:获取包含文档的图像;根据所述文档的图像和多个候选类型模型确定所述文档的类型;以及根据与所述文档的类型对应的提取模型,从所述文档的图像中提取所述文档中包含的第一信息作为识别结果。
在根据本公开的一些实施例中,所述方法还包括:确定所述图像中包含多个文档;以及分割所述图像,以得到仅包含单个文档的子图像。
在根据本公开的一些实施例中,根据所述文档的图像和多个候选类型模型确定所述文档的类型包括:根据所述多个候选类型模型获取所述文档中包含的第二信息,以得到多个候选提取结果;根据所述多个候选提取结果计算所述各个候选类型模型的分数;以及根据所述分数从所述多个候选类型模型中选择所述文档的类型模型,从而得到所述文档的类型。
在根据本公开的一些实施例中,所述分数取决于所述候选提取结果中包含的字段的数量。
在根据本公开的一些实施例中,所述候选类型模型中的各个字段具有预定的权重,所述分数取决于所述候选提取结果中包含的字段的加权和。
在根据本公开的一些实施例中,根据所述分数从所述多个候选类型模型中选择所述文档的类型模型,从而得到所述文档的类型还包括:确定分数最高的候选类型模型;确定根据所述分数最高的候选类型模型得到的候选提取结果中是否包含预定的字段及其对应的值;在根据所述分数最高的候选类型模型得到的候选提取结果中包含预定的字段及其对应的值的情况下,确定所述分数最高的候选类型模型作为所述文档的类型模型;以及在根据所述分数最高的候选类型模型得到的候选提取结果中不包含预定的字段及其对应的值的情况下,从剩余的候选类型模型中选择所述文档的类型模型。
在根据本公开的一些实施例中,所述候选类型模型中包含预定字段,所述预定字段的权重大于其它字段的权重。
在根据本公开的一些实施例中,所述预定字段的权重比其它字段的权重中的最大值大至少一个量级。
在根据本公开的一些实施例中,根据所述文档的图像和多个候选类型模型确定所述文档的类型包括:根据所述多个候选类型模型获取所述文档中包含的第二信息,以得到多个候选提取结果;根据所述多个候选提取结果计算各个候选提取结果的完整度;以及根据所述完整度从所述多个候选类型模型中选择所述文档的类型模型,从而得到所述文档的类型。
在根据本公开的一些实施例中,所述完整度为候选提取结果中的字段的数量与对应的候选类型模型中的字段的数量的比值。
在根据本公开的一些实施例中,所述方法还包括:获取用户对所述识别结果的反馈,所述反馈包括正确的识别结果;根据所述反馈将所述图像加入与所述文档的类型对应的所述提取模型的样本库;以及使用所述图像训练所述提取模型。
在根据本公开的一些实施例中,所述方法还包括:获取用户对所述提取结果的反馈,所述反馈包括正确的识别结果;根据所述反馈建立与所述文档的类型对应的新的提取模型并将所述图像加入新的提取模型的样本库;以及使用所述图像训练所述新的提取模型。
在根据本公开的一些实施例中,所述方法还包括:获取用户对所述识别结果的反馈,所述反馈包括所述文档的正确类型;根据所述反馈将所述图像加入与所述文档的正确类型对应的类型模型的样本库;以及使用所述图像训练所述类型模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州睿胜软件有限公司,未经杭州睿胜软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110440033.8/2.html,转载请声明来源钻瓜专利网。