[发明专利]文字识别方法、装置、电子设备以及可读存储介质在审
申请号: | 201911313107.0 | 申请日: | 2019-12-18 |
公开(公告)号: | CN111178363A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 万昭祎;何明航;陈浩然;姚聪 | 申请(专利权)人: | 北京旷视科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 方法 装置 电子设备 以及 可读 存储 介质 | ||
1.一种文字识别方法,其特征在于,所述方法包括:
对待识别图像进行字符类别分割,获得所述待识别图像的M个字符类别分割图,所述M个字符类别分割图与M种字符类别一一对应,所述M个字符类别分割图中的第m个字符类别分割图中的每个像素点的像素值表征:该像素点属于第m类字符的可能性;
对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,所述N个字符顺序分割图中的第n个字符顺序分割图中的每个像素点的像素值表征:该像素点对应的字符是第n个字符的可能性;
根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
2.根据权利要求1所述的方法,其特征在于,在确定所述待识别图像中每个字符的字符顺序和字符类别之前,所述方法还包括:
对所述待识别图像进行字符位置识别,获得所述待识别图像的字符位置图,所述字符位置图中的每个像素点的像素值表征:该像素点位于字符中心的可能性;
针对每个字符顺序分割图,根据所述字符位置图中的各个像素点的像素值,对该字符顺序分割图中的各个像素点的像素值进行调整,获得调整后的字符顺序分割图;
所述根据每个字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别,包括:
根据每个调整后的字符顺序分割图中各个像素点的像素值、和每个字符类别分割图中各个像素点的像素值,确定所述待识别图像中每个字符的字符顺序和字符类别。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述待识别图像进行字符顺序分割,获得所述待识别图像的N个字符顺序分割图,包括:
对所述待识别图像进行特征提取,获得该待识别图像的图像特征;
将所述图像特征输入下采样路径,以针对所述图像特征执行下采样操作,获得下采样特征;
利用循环神经网络模块对所述下采样特征进行编码,获得编码特征;
将所述编码特征输入上采样路径,以针对所述编码特征执行上采样操作,获得上采样特征;
对所述上采样特征进行卷积处理,获得所述待识别图像的N个字符顺序分割图。
4.根据权利要求3所述的方法,其特征在于,所述下采样路径包括多个串联的下采样节点;所述将所述图像特征输入下采样路径,以针对所述图像特征执行下采样操作,获得下采样特征,包括:
将所述图像特征输入所述下采样路径,使得每个下采样节点执行完下采样操作后,将操作结果传入下一个下采样节点,多个下采样节点依次获得各自对应的操作结果,多个操作结果为分辨率递减的多个下采样特征图;
将分辨率最低的下采样特征图确定为所述下采样特征。
5.根据权利要求4所述的方法,其特征在于,所述上采样路径包括多个串联的下采样节点;所述将所述编码特征输入上采样路径,以针对所述编码特征执行上采样操作,获得上采样特征,包括:
将所述下采样特征输入所述上采样路径,使得每个上采样节点执行完上采样操作后,获得该上采样节点对应的上采样特征图,然后对该上采样特征图与对应下采样特征图执行相加操作,并将所述相加操作的操作结果传入下一个上采样节点,其中,执行相加操作的上采样特征图和下采样特征图两者的分辨率相等;
将所述上采样路径输出的分辨率最高的上采样特征图确定为所述上采样特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司,未经北京旷视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911313107.0/1.html,转载请声明来源钻瓜专利网。