[发明专利]基于统一注意力机制的公式及文字识别模型方法在审

申请号：	202011505069.1	申请日：	2020-12-18
公开（公告）号：	CN112580361A	公开（公告）日：	2021-03-30
发明（设计）人：	余海涛;陈明	申请（专利权）人：	蓝舰信息科技南京有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/216;G06F40/284;G06F40/289;G06N20/00
代理公司：	天津垠坤知识产权代理有限公司 12248	代理人：	王忠玮
地址：	211100 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于统一注意力机制公式文字识别模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供基于统一注意力机制的公式及文字识别模型方法，包括识别prensentation latex或content latex并获得识别结果，对结果进行latex语义树解析，并对语义树进行遍历；使用统计分词方法对latex序列进行分词，使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词，形成分词序列；对分词序列进行神经网络编码并输出，完成从变长分词序列到定长隐空间表征转化，使用前馈神经网络完成知识点的输出映射，完成对知识点的标注。本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升，该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题，有效提升标注准确率。

技术领域

本发明涉及辅助教育教学系统技术领域，具体为基于统一注意力机制的公式及文字识别模型方法。

背景技术

现有数学学科知识点标注技术主要基于传统统计机器学习方法或循环神经网络等方法，由于模型本身特点，会由于过度泛化造成中间层信息丢失，并且在循环神经网络基础上的方法会因为模型本身特点导致训练过程中梯度消失问题无法根本解决从而导致较长的题干识别能力差，总体识别准确率较低；对于数学公式和中文英文文字混排以往采用一致性或传统分词方式，这些方法对于混排以及公式本身的表征学习能力较差。

发明内容

本发明目的在于提供基于统一注意力机制的公式及文字识别模型方法，解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升，该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题，有效提升标注准确率。

为达成上述目的，本发明提出如下技术方案：基于统一注意力机制的公式及文字识别模型方法，包括

识别prensentation latex或content latex并获得识别结果，对结果进行latex语义树解析，并对语义树进行遍历；

使用统计分词方法对latex序列进行分词，使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词，形成分词序列；

对分词序列进行神经网络编码并输出，完成从变长分词序列到定长隐空间表征转化；

使用前馈神经网络完成知识点的输出映射，完成对知识点的标注。

进一步的，在本发明中，对分词序列进行神经网络编码时，分词序列输入后进行查询(Q)，键(K)和值(V)的隐空间转化，并使用注意力算法对以上三项映射成为输出；

进一步的，在本发明中，对转化后得到的隐空间使用缩放模块进行缩放。

进一步的，在本发明中，利用multi-head进行并行学习，有效学习到不同层面的表征。

有益效果，本申请的技术方案具备如下技术效果：

本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升，该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题，有效提升标注准确率。