[发明专利]一种文档图像分类方法和装置在审
申请号: | 202211243923.0 | 申请日: | 2022-10-11 |
公开(公告)号: | CN115527220A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 侯婉嫕 | 申请(专利权)人: | 太保科技有限公司 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/40;G06V30/18;G06V30/19 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 曹伟 |
地址: | 200010 上海市黄浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 图像 分类 方法 装置 | ||
1.一种文档图像分类方法,其特征在于,包括:
获取待分类的文档图像的类别特征;
获取所述待分类的文档图像的类别特征与模板特征库中各个目标类别对应的模板特征的相似度;所述模板特征库包括多个目标类别对应的模板特征,其中所述模板特征为从对应的目标类别的文档图像中提取得到;
若所述模板特征库中存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则从中选取最高相似度的模板特征对应的目标类别作为所述待分类的文档图像的类别;
若所述模板特征库中不存在与所述待分类的文档图像的类别特征相似度大于预设相似度阈值的模板特征,则判断所述模板特征库中是否需要新增目标类别;
若判断需要新增目标类别,则将所述待分类的文档图像的类别特征作为新增的目标类别的模板特征添加到所述模板特征库中。
2.根据权利要求1所述的方法,其特征在于,所述获取待分类的文档图像的类别特征,包括:
获取所述待分类的文档图像的文本特征和图像特征;
设置提示特征;所述提示特征内设置有空占位符;
将所述文档特征、所述图像特征及提示特征输入多模态特征提取模型;
提取所述提示特征内空占位符位置对应输出的分类特征,将空占位符位置对应输出的分类特征作为所述文档图像的类别特征。
3.根据权利要求2所述的方法,其特征在于,该方法进一步包括:
将所述空占位符对应的分类特征输入分类层,获得所述分类特征对应的类别字符;
所述空占位符的字节长度大于或等于所述类别字符的字节长度。
4.根据权利要求2所述的方法,其特征在于,获取文档图像的文本特征,包括:
通过光学字符识别OCR获得所述文档图像的文本和所述文本对应的二维位置信息,将所述文本进行分词获得词令牌,根据所述二维位置信息获得词令牌位置信息;
将词令牌及词令牌位置信息输入编码层,编码层将词令牌及词令牌位置信息映射到特征空间,获得词特征和词二维位置特征;
根据词令牌的索引排序,采用绝对位置编码进行位置编码将所述排序的序号映射为词一维位置特征;
所述词特征、词二维位置特征及词一维位置特征为文本特征。
5.根据权利要求2所述的方法,其特征在于,获取文档图像的图像特征,包括:
将所述文档图像均匀划分为多个图像块,将图像块按设定的位置顺序输入编码层,编码层将每一个图像块映射为多维特征,所述编码层输出一个图像特征序列;
将所述文档图像中每一个图像块对应的二维位置输入编码层,得到图像二维位置特征;所述二位位置为所述图像块在所述文档图像中的平面位置;
采用绝对位置编码对所述文档图像中每个图像块的一维位置顺序序号进行位置编码,得到图像一维位置特征;
所述图像特征序列、图像二维位置特征及图像一维位置特征为图像特征。
6.根据权利要求2所述的方法,其特征在于,所述提示特征还包括提示字符。
7.根据权利要求1所述的方法,其特征在于,从对应的目标类别的文档图像中提取模板特征,包括:
若所述目标类别只采集到一张文档图像,则获取所述文档图像的类别特征作为该目标类别的模板特征;
若所述目标类别采集到多张文档图像,则对多张文档图像的类别特征进行平均获得平均类别特征,设置所述平均类别特征作为该目标类别的模板特征。
8.根据权利要求1所述的方法,其特征在于,所述目标类别有多个,每个目标类别一对一设置一个模板特征。
9.根据权利要求2所述的方法,其特征在于,所述多模态特征提取模型采用transformer模型;
所述多模态特征提取模型在训练时,对应空占位符的输出位置设置损失函数进行训练,所述损失函数为平均交叉熵函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太保科技有限公司,未经太保科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211243923.0/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序