[发明专利]拼音识别方法、装置、存储介质及电子设备在审
| 申请号: | 202210102534.X | 申请日: | 2022-01-27 |
| 公开(公告)号: | CN114529905A | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | 刘腾龙;马志国;张飞飞 | 申请(专利权)人: | 北京开拓鸿业高科技有限公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06T7/194;G06T7/136;G06K9/62;G06V10/774 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 张桂杰 |
| 地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 拼音 识别 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种拼音识别方法、装置、存储介质及电子设备,以解决相关技术中存在的问题。该方法包括:获取待识别图像;将所述待识别图像输入训练完成的拼音定位模型,得到所述拼音定位模型输出的拼音文本子图像;将所述拼音文本子图像输入训练完成的拼音识别模型,得到从所述拼音文本子图像中识别到的拼音文本。
技术领域
本公开涉及图像识别领域,具体地,涉及一种拼音识别方法、装置、存储介质及电子设备。
背景技术
随着互联网和教育事业的发展,汉语拼音逐步通过互联网进入网络教育视野,人们可将拼音文本录入互联网来进行相关的网络教学、网络批改作业、以及拍照搜题等应用。
在相关技术中,教育行业通常采用传统图像处理与统计机器学习相结合的方式来进行汉语拼音的识别。然而,传统方式训练得到的模型不能处理复杂多变的场景,在实际应用中的拼音识别效果较差。
发明内容
本公开的目的是提供一种拼音识别方法、装置、存储介质及电子设备,以解决相关技术中存在的问题。
为了实现上述目的,根据本公开实施例的第一方面,提供一种拼音识别方法,所述方法包括:
获取待识别图像;
将所述待识别图像输入训练完成的拼音定位模型,得到所述拼音定位模型输出的拼音文本子图像;
将所述拼音文本子图像输入训练完成的拼音识别模型,得到从所述拼音文本子图像中识别到的拼音文本;
其中,所述拼音定位模型的训练过程包括:
根据图像样本生成拼音概率图和阈值图,并根据所述拼音概率图和所述阈值图计算得到二值图,所述图像样本中的每一像素点对应有概率标签、阈值标签以及二值标签;
根据所述图像样本中各像素点对应的所述概率标签和所述拼音概率图计算第一损失信息,根据所述图像样本中各像素点对应的所述阈值标签和所述阈值图计算第二损失信息,并根据所述图像样本中各像素点对应的所述二值标签和所述二值图计算第三损失信息;
根据所述第一损失信息、所述第二损失信息、以及所述第三损失信息调整所述拼音定位模型的训练参数。
可选地,所述根据所述拼音概率图和所述阈值图计算得到二值图,包括:
针对所述拼音概率图中的每一第一像素点,根据所述第一像素点的值、以及所述阈值图中的与所述第一像素点相同位置上的第二像素点的值计算得到所述二值图中的与所述第一像素点相同位置上的第三像素点的值。
可选地,所述训练参数包括第二经验阈值,所述针对所述拼音概率图中的每一第一像素点,根据所述第一像素点的值、以及所述阈值图中的与所述第一像素点相同位置上的第二像素点的值计算得到所述二值图中的与所述第一像素点相同位置上的第三像素点的值,包括:
通过如下公式计算所述第三像素点的值:
其中,Bi,j表征所述二值图中坐标为(i,j)的第三像素点的值、Pi,j表征所述概率图中坐标为(i,j)的第一像素点的值,Ti,j表征所述阈值图中坐标为(i,j)的第二像素点的值,k为所述第二经验阈值。
可选地,所述将所述待识别图像输入训练完成的拼音定位模型,得到所述拼音定位模型输出的拼音文本子图像,包括:
将所述待识别图像输入训练完成的所述拼音定位模型,以生成目标拼音概率图;
根据所述目标拼音概率图中各像素点的值和第一经验阈值的大小关系确定所述拼音文本子图像。
可选地,所述拼音定位模型是通过如下方式训练得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京开拓鸿业高科技有限公司,未经北京开拓鸿业高科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210102534.X/2.html,转载请声明来源钻瓜专利网。





