[发明专利]一种基于Self-Attention的离线数学公式符号识别方法有效
申请号: | 201911405977.0 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111160343B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 蔡毅;刘诤 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/19;G06V10/764;G06V10/82;G06N3/0464;G06N3/047;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 self attention 离线 数学公式 符号 识别 方法 | ||
1.一种基于Self-Attention的离线数学公式识别方法,其特征在于,包括步骤:
对输入的数学公式图像进行预处理;
编码阶段:
通过卷积神经网络对数学公式图像进行特征提取;
将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度;
利用基于多头的自注意力机制对提取的特征的隐向量进行编码,获得具有上下文信息的特征结果向量;
解码阶段:
依次输入字符到嵌入层,获得字符相应的嵌入向量;
将编码阶段获得的特征结果向量以及获得的嵌入向量输入到由掩式多头自注意力层、多头注意力层和全连接层组成的网络块,获取输入字符的结果向量;
利用softmax函数获取输入字符的结果向量对应的概率向量,找出概率向量中最大概率值索引对应的字符作为生成的字符;
循环解码阶段,获得数学公式图像对应的latex字符序列;
所述具有上下文信息的特征结果向量的具体计算方法为:
QE、KE、VE向量需要通过输入向量与三个不同的映射矩阵WQ,WK,WV相乘得到,具体计算公式如下:
QE=Qinput·WQ,KE=Kinput·WK,VE=Vinput·WV
其中,是对应查询向量Q(queries)、键向量K(keys)、值向量V(values)的权重矩阵;
并且对于每个输入向量有:v=Qinput=Kinput=Vinput;
通过查询向量QE和键向量KE和softmax函数,得到注意力权重aQ,K,计算方式如下:
其中,τ代表了缩放因子,dlen表示键向量的维度,dattn=dfeat/h代表用来计算注意力的新的特征的维度;
对于每一个head,有将h个head拼接起来,得到:
MultiHead=Concat(head1,…,headh)Wo
其中,为后一层全连接层的权重矩阵,Concat代表向量的拼接操作,在此基础上,再堆叠N-1个网络块,即可得到最终的结果向量;
所述将编码阶段获得的特征结果向量以及获得的嵌入向量输入到解码阶段的自注意力模块,获取输入字符的结果向量的步骤中,整个解码阶段由N个网络块栈式堆叠而成,每个网络块由掩式多头自注意力层、多头注意力层、全连接层拼接而成;掩式多头自注意力层,与之前普通的多头自注意力层不同的仅仅是其输入并非一次性输入完成,而是需要一个循环往复的过程,每个时间步的输入序列都是在上一个时间步输入序列的后面拼上一个该时间步的输入字符后的序列。
2.根据权利要求1所述的方法,其特征在于,所述对输入的数学公式图像进行预处理的步骤中,预处理的方法为:
对于高度大于150的图像对其进行等比例的缩小,将其高度固定为150;对于缩小后宽度不大于1200的输入图像通过扩展的方式将图像宽度取不超过150,300,450,600,750,900,1050和1200几个等级中最近的数值;对于缩小后宽度小于1200的图像,需要将该图像进行等比例的缩小,即将其宽度固定为1200。
3.根据权利要求1所述的方法,其特征在于,所述将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度的步骤中,
为了使CNN模块输出的隐向量的维度能够和多头自注意力机制的输入维度相对应,在CNN模块后接上线性层和ReLU激活函数层,将vi从维度C变换到维度dmodel,其中维度dmodel为编码阶段多头自注意力层输入向量的维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911405977.0/1.html,转载请声明来源钻瓜专利网。