[发明专利]一种基于字根的零样本汉字识别方法在审

申请号：	202011455952.4	申请日：	2020-12-10
公开（公告）号：	CN112508108A	公开（公告）日：	2021-03-16
发明（设计）人：	王鹏;高丽颖	申请（专利权）人：	西北工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/32;G06N3/04;G06N3/08
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于字根样本汉字识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于字根的零样本汉字识别方法，首先在CTW汉字数据集的基础上构建训练集和测试集；然后构建汉字识别嵌入模型，该模型由两个并行分支组成，包括由CNN模型构成的图像处理分支和由循环神经网络构成的属性信息处理分支；采用训练集图像对汉字识别嵌入模型进行训练，得到最终模型；再采用测试集对模型进行测试。本发明大大降低了对训练数据的要求，且符合自然场景下文本数据分布的规律，并取得了可行的识别率，为自然场景下的汉字识别提供了一种新思路。

技术领域

本发明属于机器人技术领域，具体涉及一种汉字识别方法。

背景技术

传统的基于机器学习的自然场景下汉字图像识别通过标注大量该场景下汉字图像的样本学习汉字图像和类别标签之间的对应关系，但是自然场景下的汉字频率作为长尾分布的典型代表，常用汉字和生僻字在自然场景下的分布数量差异显著，对很多不常用的汉字难以收集等量的训练样本，这样在训练过程中会出现严重的样本不均衡问题，不能达到很好的识别效果。而使用手写汉字来弥补这一数量上的差异，显然没有考虑自然场景下复杂背景和字体、颜色等因素，因此可行性不高。

近年来，零样本学习的提出和发展为解决上述问题提供了一个新的解决思路。零样本学习在训练阶段对测试类别的样本没有要求，因此可以用频率高的汉字做训练，在频率低的汉字或者所有类别的汉字(广义零样本学习)上做测试，可以按照现实生活中汉字的使用情况收集数据，无须刻意根据汉字的类别收集数据。零样本学习在训练时不需要提供测试样本，但需要属性信息来共享可见类与未见类之间的关系。

发明内容

为了克服现有技术的不足，本发明提供了一种基于字根的零样本汉字识别方法，首先在CTW汉字数据集的基础上构建训练集和测试集；然后构建汉字识别嵌入模型，该模型由两个并行分支组成，包括由CNN模型构成的图像处理分支和由循环神经网络构成的属性信息处理分支；采用训练集图像对汉字识别嵌入模型进行训练，得到最终模型；再采用测试集对模型进行测试。本发明大大降低了对训练数据的要求，且符合自然场景下文本数据分布的规律，并取得了可行的识别率，为自然场景下的汉字识别提供了一种新思路。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：构建训练集和测试集；

步骤1-1：将CTW汉字数据集中的只包含单个汉字的图像按照同一个汉字出现的频率从高到低进行排序，取出现频率排序在前A₁的汉字对应的只包含单个汉字的图像为训练集；出现频率排序在前A₁个之后取A₂个汉字对应的只包含单个汉字的图像为测试集；

步骤1-2：将训练集和测试集中图像包含的汉字作为类别标签；

步骤1-3：采集训练集和测试集中图像包含的汉字的字根，并对所有字根进行编码，每个字根有唯一的编码；

步骤2：构建文字识别嵌入模型；

文字识别嵌入模型包括两个并行分支，一个是图像处理分支，另一个是属性信息处理分支；

所述图像处理分支由CNN模型构成，输入为只包含单个汉字的图像，输出为视觉特征向量，用φ(I_i)表示，I_i为第i幅只包含单个汉字的图像；

所述属性信息处理分支由循环神经网络构成；对训练集和测试集中图像包含的任一汉字，采集该汉字的字根，再用步骤1的字根编码方法将该汉字变为字根编码组合；使用递归神经网络，将训练集和测试集中图像包含的所有汉字的字根编码组合再次编码为固定长度语义向量；循环神经网络的输入为固定长度语义向量，输出为语义特征向量，输出表示如下：

其中，表示前向最终隐藏状态，表示反向的最终隐藏状态，f(·)是ReLU激活函数，是的权重，是的权重；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011455952.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种利用PCB剥锡废液制备氯化亚锡晶体的方法
下一篇：一种增加握着力的楔形耐张线夹

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于字根的零样本汉字识别方法在审

专利文献下载