[发明专利]一种文档图像分类方法和装置在审
申请号: | 202211243923.0 | 申请日: | 2022-10-11 |
公开(公告)号: | CN115527220A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 侯婉嫕 | 申请(专利权)人: | 太保科技有限公司 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/40;G06V30/18;G06V30/19 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 曹伟 |
地址: | 200010 上海市黄浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 图像 分类 方法 装置 | ||
本申请公开了一种文档图像分类方法和装置,在模板特征库中设置目标类别的模板特征;获取待分类的文档图像的类别特征;将所述待分类的文档图像的类别特征与模板特征库中目标类别的模板特征对比计算相似度;若获得与所述类别特征相似度最高且大于预设相似度阈值的模板特征,所述模板特征对应的目标类别为所述文档图像的类别;若没有获得与所述类别特征相似度大于预设相似度阈值的模板特征,则确认模板特征库中是否需要新增目标类别,若需要新增目标类别则获取所述类别特征作为新目标类别的模板特征,并添加到模板特征库中。扩充目标类别,不局限于已有的类别,提高识别的准确性,同时减少传统技术中基于指定类别进行分类的局限性。
技术领域
本申请涉及文档图像处理技术领域,特别是涉及一种文档图像分类方法和装置。
背景技术
传统的文档图像分类一般有两种方式,一种是图像分类,适用于从图像特征的角度进行分类,但是文字内容很难进行区分分类,另一种是文本分类,只能基于文本特征进行分类,两种方式各有其局限性,不能做到文档与图像结合的全场景覆盖。因此,常采用多模态建模方案将图像特征和文本特征结合。但现有技术中,采用闭集的训练集构建模型,在实际使用时仅支持指定类别的数据,局限性大。
发明内容
基于上述问题,本申请提供了一种文档图像分类方法和装置,以使文档图像分类不再局限于指定类别。
本申请实施例公开了如下技术方案:
第一方面,本申请提出一种文档图像分类方法,包括:
获取待分类的文档图像的类别特征;
获取所述待分类的文档图像的类别特征与模板特征库中各个目标类别对应的模板特征的相似度;所述模板特征库包括多个目标类别对应的模板特征,其中所述模板特征为从对应的目标类别的文档图像中提取得到;
若所述模板特征库中存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则从中选取最高相似度的模板特征对应的目标类别作为所述待分类的文档图像的类别;
若所述模板特征库中不存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则判断所述模板特征库中是否需要新增目标类别;
若判断需要新增目标类别,则将所述待分类的文档图像的类别特征作为新增的目标类别的模板特征添加到所述模板特征库中。
可选的,所述获取待分类的文档图像的类别特征,包括:
获取所述待分类的文档图像的文本特征和图像特征;
设置提示特征;所述提示特征内设置有空占位符;
将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型;
提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征。
可选的,该方法进一步包括:
将所述空占位符对应的分类特征输入分类层,获得所述分类特征对应的类别字符;
所述空占位符的字节长度大于或等于所述类别字符的字节长度。
可选的,获取文档图像的文本特征,包括:
通过光学字符识别OCR获得所述文档图像的文本和所述文本对应的二维位置信息,将所述文本进行分词获得词令牌,根据所述二维位置信息获得词令牌位置信息;
将词令牌及词令牌位置信息输入编码层,编码层将词令牌及词令牌位置信息映射到特征空间,获得词特征和词二维位置特征;
根据词令牌的索引排序,采用绝对位置编码进行位置编码将所述排序的序号映射为词一维位置特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太保科技有限公司,未经太保科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211243923.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序