[发明专利]文本重叠检测方法、装置、介质和电子设备在审
| 申请号: | 202211678556.7 | 申请日: | 2022-12-26 |
| 公开(公告)号: | CN115937864A | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 梁晓云;高永强;杨萍 | 申请(专利权)人: | 抖音视界有限公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/18;G06V30/19;G06V10/26;G06V10/44;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 王修雨 |
| 地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 重叠 检测 方法 装置 介质 电子设备 | ||
1.一种文本重叠检测方法,其特征在于,包括:
对待检测对象进行文字识别,得到所述待检测对象中、文本行的文字识别置信度,将所述文字识别置信度低于预设识别置信度阈值的文本行添加到第一候选异常区域集中;
从所述待检测对象中截取所述待检测对象的各个文本行的文本行图像,对所述文本行图像进行文本分类,将文本分类结果为重叠文本的文本行添加到第二候选异常区域集中;
对所述待检测对象中的重叠文本进行目标检测,将目标检测结果为重叠文本的文本行添加到第三候选异常区域集中;
将所述第一候选异常区域集、所述第二候选异常区域集和所述第三候选异常区域集的交集确定为文本重叠检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本行图像进行文本分类,包括:
将所述文本行图像切割成多个图像块;
采用利用了类别向量、transformer结构和二分类多层感知器的文本分类器,对每个所述图像块进行文本分类,其中,所述类别向量用于整合所述文本行图像的整图特征。
3.根据权利要求2所述的方法,其特征在于,所述采用利用了类别向量、transformer结构和二分类多层感知器的文本分类器,对每个所述图像块进行文本分类,包括:
对由所述多个图像块组成的第一向量进行线性变换,得到第二向量;
在所述第二向量中添加可学习的所述类别向量,得到第三向量;
在所述第三向量中添加位置编码,得到第四向量,其中所述位置编码用于表征各个所述图像块的相对位置关系;
使用所述transformer结构对所述第四向量进行编码;
利用所述二分类多层感知器对编码后的第四向量进行分类,得到所述类别向量和各个所述图像块的文本分类结果。
4.根据权利要求3所述的方法,其特征在于,在所述将所述文本行图像切割成多个图像块之前,所述方法还包括:在保持所述文本行图像的长宽比的情况下调整所述文本行图像的尺寸,并在调整后的文本行图像中填充像素;
所述使用所述transformer结构对所述第四向量进行编码,包括:使用所述transformer结构对所述第四向量进行编码,以及在编码过程中不对填充区域执行注意力机制。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述将文本分类结果为重叠文本的文本行添加到第二候选异常区域集中,包括:
若所述文本行图像所对应的类别向量的文本分类结果为重叠文本、所述文本行图像中有连续N个以上的图像块的文本分类结果为重叠文本、而且所述类别向量和所述连续N个以上的图像块的文本分类结果的文本分类置信度均大于预设分类置信度阈值,则将该文本行添加到所述第二候选异常区域集中。
6.根据权利要求1所述的方法,其特征在于,所述对所述待检测对象中的重叠文本进行目标检测,包括:
将重叠文本行和重叠区域作为所述待检测对象中的检测目标,来执行所述目标检测。
7.根据权利要求6所述的方法,其特征在于,所述将目标检测结果为重叠文本的文本行添加到第三候选异常区域集中,包括:
若目标检测结果指示某一重叠文本行的坐标与某一重叠区域的坐标有重叠,则将该重叠文本行添加到所述第三候选异常区域集中。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过以下至少一种方式自动生成训练样本:在正常文本行上写入文字,其中被写入文字的字体、颜色和字符串均是随机的;对所述文本行图像进行前景字符提取,并将提取到的前景字符叠加到其他文本行图像上;
利用所述训练样本对执行所述文本分类的分类器和执行所述目标检测的目标检测器进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界有限公司,未经抖音视界有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211678556.7/1.html,转载请声明来源钻瓜专利网。





