[发明专利]字体识别方法和装置有效
申请号: | 201910918983.X | 申请日: | 2019-09-26 |
公开(公告)号: | CN110688949B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 程立双 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19;G06V20/62;G06V10/82;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 宋兴;刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字体 识别 方法 装置 | ||
1.一种字体识别方法,其特征在于,包括:
获取待识别的文本图片;
从多个预设尺度的滑动窗口中选取至少一个预设尺度的滑动窗口;
采用所述至少一个预设尺度的滑动窗口,对所述文本图片进行扫描,得到多个子文本图片;
当所述至少一个预设尺度的滑动窗口包括两个或两个以上的预设尺度的滑动窗口时,所述采用所述至少一个预设尺度的滑动窗口,对所述文本图片进行扫描,包括:
采用所述两个或两个以上的预设尺度的滑动窗口对所述文本图片进行一次扫描;
根据所述多个子文本图片和机器学习模型,获取所述文本图片中的文本的字体;
所述根据所述多个子文本图片和机器学习模型,获取所述文本图片中的文本的字体,包括:
根据所述多个子文本图片和第一机器学习模型,得到所述文本图片的深度特征;
根据所述深度特征和基于注意力机制的第二机器学习模型,获取所述文本图片中的文本的字体;
所述第一机器学习模型包括Q个特征提取神经网络模型和P个平移不变神经网络模型;所述特征提取神经网络模型和所述平移不变神经网络模型在所述第一机器学习模型中交替排列;
所述特征提取神经网络模型和所述平移不变神经网络模型均用于提取多个子文本图片中的深度特征,其中,所述特征提取神经网络模型所包括的滤波器为训练所述第一机器学习模型时得到的滤波器,所述平移不变神经网络模型所包括的滤波器为预设滤波器;Q和P均为正整数。
2.根据权利要求1所述的方法,其特征在于,所述基于注意力机制的第二机器学习模型包括第一神经网络模型和基于注意力机制的第二神经网络模型;所述根据所述深度特征和基于注意力机制的第二机器学习模型,获取所述文本图片中的文本的字体,包括:
对所述文本图片的深度特征采用所述第一神经网络模型进行编码,得到编码序列;
采用所述基于注意力机制的第二神经网络模型对所述编码序列进行解码,获取所述文本图片中的文本的字体。
3.根据权利要求2所述的方法,其特征在于,采用所述基于注意力机制的第二神经网络模型对所述编码序列进行解码,获取所述文本图片中的文本的字体,包括:
采用所述基于注意力机制的第二神经网络模型对所述编码序列进行解码,得到字体向量,字体向量中的每个分量与一种字体相对应;
根据所述字体向量,获取所述文本图片中的文本的字体。
4.根据权利要求1所述的方法,其特征在于,所述获取待识别的文本图片,包括:
获取原始文本图片;
将所述原始文本图片的高度缩放到预设高度,得到所述待识别的文本图片。
5.一种字体识别装置,其特征在于,包括:
获取模块,用于获取待识别的文本图片;
处理模块,用于从多个预设尺度的滑动窗口中选取至少一个预设尺度的滑动窗口;
所述处理模块,还用于采用所述至少一个预设尺度的滑动窗口,对所述文本图片进行扫描,得到多个子文本图片;当所述至少一个预设尺度的滑动窗口包括两个或两个以上的预设尺度的滑动窗口时,所述采用所述至少一个预设尺度的滑动窗口,对所述文本图片进行扫描,包括:采用所述两个或两个以上的预设尺度的滑动窗口对所述文本图片进行一次扫描;
所述处理模块,还用于根据所述多个子文本图片和机器学习模型,获取所述文本图片中的文本的字体;
所述处理模块在用于根据所述多个子文本图片和机器学习模型,获取所述文本图片中的文本的字体时,所述处理模块具体用于:
根据所述多个子文本图片和第一机器学习模型,得到所述文本图片的深度特征;
根据所述深度特征和基于注意力机制的第二机器学习模型,获取所述文本图片中的文本的字体;
所述第一机器学习模型包括Q个特征提取神经网络模型和P个平移不变神经网络模型;所述特征提取神经网络模型和所述平移不变神经网络模型在所述第一机器学习模型中交替排列;所述特征提取神经网络模型和所述平移不变神经网络模型均用于提取多个子文本图片中的深度特征,其中,所述特征提取神经网络模型所包括的滤波器为训练所述第一机器学习模型时得到的滤波器,所述平移不变神经网络模型所包括的滤波器为预设滤波器;其中,Q和P均为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910918983.X/1.html,转载请声明来源钻瓜专利网。