[发明专利]一种基于改进的VGG-16模型的传统蒙古文字母识别方法在审
申请号: | 202110826492.X | 申请日: | 2021-07-21 |
公开(公告)号: | CN113469123A | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 仁庆道尔吉;张毕力格图;张文静;刘馨远;张倩;郎佳珺;苏依拉;萨和雅 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 武汉菲翔知识产权代理有限公司 42284 | 代理人: | 贾双明 |
地址: | 010051 内蒙*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 vgg 16 模型 传统 蒙古文 字母 识别 方法 | ||
1.一种基于改进的VGG-16模型的传统蒙古文字母识别方法,其特征在于,包括如下步骤:
步骤1:对传统蒙古文手写体字母图像数据进行预处理操作;
步骤2:将经过预处理得到的数据按一定比例分为训练集和测试集;
步骤3:改进的VGG-16层级结构主要由数据输入层、卷积层、激活层、池化层和全连接层构成,改进的VGG-16是将蒙古文字母图像进到2层的卷积层和最大池化层,再进到3层的卷积层和最大池化层,最后送入两层全连接,改进的VGG-16与原VGG-16的区别在于将原VGG-16的13层卷积层缩减为5层,最大池化层的5层减少至2层,全连接层由3层变为2层。
步骤4:将改进的VGG-16模型在大规模的语料进行预训练,得到改进的VGG-16模型的蒙古文手写体字母识别的模型;
步骤5:将基于改进的VGG-16模型的蒙古文手写体字母识别方法的分析结果与原网络分析方法的分析结果就损失值、识别精确率和F1值进行对比和评价,以达到提高传统蒙古文手写体字母识别的效果。
2.根据权利要求1所述的一种基于改进的VGG-16模型的传统蒙古文字母识别方法,其特征在于,所述步骤1中预处理是将图片压缩成与mnist数据集格式相同的数据集,其具体步骤为:首先生成测试集标签和测试集数据,再以相同的方法得到训练集标签和训练集数据。
3.根据权利要求2所述的一种基于改进的VGG-16模型的传统蒙古文字母识别方法,其特征在于,所述其具体步骤还包括有:进行图像归一化和灰度化操作;将数据做归一化和灰度化处理的图像为32×32×1的灰度图像。
4.根据权利要求1所述的一种基于改进的VGG-16模型的传统蒙古文字母识别方法,其特征在于,所述步骤2中,首先生成测试集标签test_la,将第1至第4个字节存放文件头魔数(ma_number);第5至第8个字节存放蒙古文字母图像数据的标签个数,第9个字节开始每个字节存储一个图片的标签信息。其次生成测试集test_im,第1至第4个字节存放文件头魔数;第5至第8个字节存放蒙古文字母图像数据个数;第9至第16个字节存放蒙古文字元图像数据的宽度和高度;从第17个字节开始,每个字节存放一个像素值,每32×32个字节大小存放一幅图像数据,一次相同生成训练集标签train_la和训练集train_im。
5.根据权利要求1所述的一种基于改进的VGG-16模型的传统蒙古文字母识别方法,其特征在于,所述步骤3中,卷积层用于提取蒙古文字母特征信息,核心参数包括卷积核的尺寸大小、步长和填充,卷积核尺寸大小指定为小于输入图像尺寸的任意数值,使用的卷积核尺寸大小为3×3、步长为1、填充的属性为“same”;激活层将卷积层的输出形成非线性的映射计算,采用Relu激活函数,并在Relu激活函数后衔接BN正则化层,池化层,采用最大池化,尺寸为2×2,步长为2。
6.根据权利要求1所述的一种基于改进的VGG-16模型的传统蒙古文字母识别方法,其特征在于,所述改进的VGG-16是将蒙古文字母图像进到2层的卷积层和最大池化层,再进到3层的卷积层和最大池化层,最后送入两层全连接;其中输入前两层的特征图为32×32×64,参数个数分别为640和36928;最大池化层(无参数)为2×2,步长为2,则池化后的特征图为16×16×64;在输入到特征图为16×16×128的卷积层中,本次为三层,参数个数分别为73856、147584和147584;在进行最大池化(无参数)后特征图为8×8×128;最后是两层全连接层,神经元个数分别为512和23,参数为262656和11799。
7.根据权利要求1所述的一种基于改进的VGG-16模型的传统蒙古文字母识别方法,其特征在于,所述步骤4中,利用大规模传统蒙古文手写体识别字母语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,用训练好的参数和结果预测损失值、识别准确率和F1值来衡量模型的性能。由正态分布随机初始化开始训练,采用随机梯度下降的方法来优化网络。
8.根据权利要求1所述的一种基于改进的VGG-16模型的传统蒙古文字母识别方法,其特征在于,所述步骤5中,损失值由学习得出的分类特征值与真实样本的特征值之间做多分类交叉熵函数计算得出,损失函数为:
其中K为标签数,N为样本总数,Pi,k为第i个样本预测为第k个标签值的概率;
准确率的计算公式为
精确率的计算公式为
召回率的计算公式为
F1值的计算公式为
其中P表示精确率,R表示召回率,F1表示F1值,TP表示实际为正例,且被模型预测为正例的样本数量;FN表示被模型预测为负例,但实际上为正例的样本数量;FP表示被模型预测为正例,实际上为负例的样本数量;TN表示实际为负例,且被模型预测为负例的样本数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110826492.X/1.html,转载请声明来源钻瓜专利网。