[发明专利]汉字识别方法、装置、计算机可读介质及电子设备有效
申请号: | 201910905543.0 | 申请日: | 2019-09-24 |
公开(公告)号: | CN110659639B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 周多友;王长虎 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06N3/08 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 贾会玲 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉字 识别 方法 装置 计算机 可读 介质 电子设备 | ||
本公开涉及一种汉字识别方法、装置、计算机可读介质及电子设备。方法包括:接收客户端发送的待识别图像;确定待识别图像中待识别文字行的特征向量组,特征向量组中各特征向量的维度为汉字信息库中所有汉字所包含的部件数和部件间结构关系数之和;将特征向量组中的非零元素转化为0或1,得到新的特征向量组;根据新的特征向量组,获取待识别汉字行中包括的至少一个汉字,并将其发送至客户端。由此,各特征向量的维度相对较低。这样,可以减少确定特征向量组时的计算工作量,并且,根据新的特征向量组获取待识别汉字行中包括的至少一个汉字的时长也大大缩短,从而提高了汉字识别的效率。此外,还可以达到节省存储空间的目的。
技术领域
本公开涉及图像文字识别领域,具体地,涉及一种汉字识别方法、装置、计算机可读介质及电子设备。
背景技术
现阶段,汉字的编码大多采用独热码(one-hot code)方式,这样,汉字信息库中有7445个汉字和图形字符,则用于表示每个汉字和图形字符的编码的维度就有七千多个,是非常庞大且臃肿的编码方式。采用该种编码方式进行汉字识别时,由于编码维度较高,汉字识别过程较为费时,且需要占用较大的存储空间。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种汉字识别方法,包括:接收客户端发送的待识别图像;确定所述待识别图像中待识别文字行的特征向量组,其中,所述特征向量组中各特征向量的维度为汉字信息库中所有汉字所包含的部件数和部件间结构关系数之和,所述特征向量中的各元素为所述所有汉字所包含的部件或部件间结构关系对应的概率值,所述部件包括偏旁和部首;根据预设规则,将所述特征向量组中的非零元素转化为0或1,得到新的特征向量组;根据所述新的特征向量组,获取所述待识别汉字行中包括的至少一个汉字。
第二方面,本公开提供一种汉字识别装置,包括:接收模块,用于接收客户端发送的待识别图像;第一确定模块,用于确定所述接收模块接收到的所述待识别图像中待识别文字行的特征向量组,其中,所述特征向量组中各特征向量的维度为汉字信息库中所有汉字所包含的部件数和部件间结构关系数之和,所述特征向量中的各元素为所述所有汉字所包含的部件或部件间结构关系对应的概率值,所述部件包括偏旁和部首;转化模块,用于根据预设规则,将所述第一确定模块得到的所述特征向量组中的非零元素转化为0或1,得到新的特征向量组;第一获取模块,用于根据所述转化模块得到的所述新的特征向量组,获取所述待识别汉字行中包括的至少一个汉字。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面提供的所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面提供的所述方法的步骤。
在上述技术方案中,在从客户端获取到待识别图像后,首先确定该待识别图像中待识别文字行的特征向量组;接下来,根据预设规则,将上述特征向量组中的各非零元素转化为0或1,得到新的特征向量组;最后,根据该新的特征向量组,获取待识别文字行中包括的至少一个汉字。由于汉字信息库中所有汉字所包含的部件数和部件间结构关系数之和远远小于该汉字信息库中的汉字总数,这样,各特征向量的维度相对较低。由此,可以减少确定特征向量组时的计算工作量,并且,根据新的特征向量组获取待识别汉字行中包括的至少一个汉字的时长也大大缩短,从而提高了汉字识别的效率。此外,还可以达到节省存储空间的目的。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910905543.0/2.html,转载请声明来源钻瓜专利网。