[发明专利]基于统一注意力机制的公式及文字识别模型方法在审
申请号: | 202011505069.1 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112580361A | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 余海涛;陈明 | 申请(专利权)人: | 蓝舰信息科技南京有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/284;G06F40/289;G06N20/00 |
代理公司: | 天津垠坤知识产权代理有限公司 12248 | 代理人: | 王忠玮 |
地址: | 211100 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统一 注意力 机制 公式 文字 识别 模型 方法 | ||
本发明提供基于统一注意力机制的公式及文字识别模型方法,包括识别prensentation latex或content latex并获得识别结果,对结果进行latex语义树解析,并对语义树进行遍历;使用统计分词方法对latex序列进行分词,使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词,形成分词序列;对分词序列进行神经网络编码并输出,完成从变长分词序列到定长隐空间表征转化,使用前馈神经网络完成知识点的输出映射,完成对知识点的标注。本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升,该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题,有效提升标注准确率。
技术领域
本发明涉及辅助教育教学系统技术领域,具体为基于统一注意力机制的公式及文字识别模型方法。
背景技术
现有数学学科知识点标注技术主要基于传统统计机器学习方法或循环神经网络等方法,由于模型本身特点,会由于过度泛化造成中间层信息丢失,并且在循环神经网络基础上的方法会因为模型本身特点导致训练过程中梯度消失问题无法根本解决从而导致较长的题干识别能力差,总体识别准确率较低;对于数学公式和中文英文文字混排以往采用一致性或传统分词方式,这些方法对于混排以及公式本身的表征学习能力较差。
发明内容
本发明目的在于提供基于统一注意力机制的公式及文字识别模型方法,解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升,该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题,有效提升标注准确率。
为达成上述目的,本发明提出如下技术方案:基于统一注意力机制的公式及文字识别模型方法,包括
识别prensentation latex或content latex并获得识别结果,对结果进行latex语义树解析,并对语义树进行遍历;
使用统计分词方法对latex序列进行分词,使用wordpiece分词方法对于数学公式之外的题干内自然语言进行分词,形成分词序列;
对分词序列进行神经网络编码并输出,完成从变长分词序列到定长隐空间表征转化;
使用前馈神经网络完成知识点的输出映射,完成对知识点的标注。
进一步的,在本发明中,对分词序列进行神经网络编码时,分词序列输入后进行查询(Q),键(K)和值(V)的隐空间转化,并使用注意力算法对以上三项映射成为输出;
进一步的,在本发明中,对转化后得到的隐空间使用缩放模块进行缩放。
进一步的,在本发明中,利用multi-head进行并行学习,有效学习到不同层面的表征。
有益效果,本申请的技术方案具备如下技术效果:
本发明解决现有互联网教育相关应用中用到的数学学科知识点标注模块的准确性提升,该发明可以通过自然语言处理和数学公式分解的新算法解决现有技术存在公式和文字混排困难理解问题,有效提升标注准确率。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝舰信息科技南京有限公司,未经蓝舰信息科技南京有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011505069.1/2.html,转载请声明来源钻瓜专利网。