[发明专利]数学公式识别方法及装置有效
| 申请号: | 201610237543.4 | 申请日: | 2016-04-14 |
| 公开(公告)号: | CN107301411B | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 刘青文;张丹;邓晓栋;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/62 |
| 代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 刘路尧;逢京喜 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数学公式 识别 方法 装置 | ||
本发明公开了一种数学公式识别方法及装置,该方法包括:预先构建公式识别模型;接收待识别文本;提取待识别文本中各字符的公式识别特征;利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式。利用本发明,可以提升歧义字符的识别准确度。
技术领域
本发明涉及自然语言处理领域,具体涉及一种数学公式识别方法及装置。
背景技术
随着互联网的不断普及和互联网技术的迅速发展,传统的教育模式也在逐渐发生改变,信息、在线化、智能化等辅助教学手段正在向传统教育领域渗透,并逐步获得广大教师、家长和学生的认可。在以考试为主要评价方式的教育模式下,试题是学生巩固所学知识和教育者评价学生水平的基础数据资源,因此,试题资源的构建显得尤为重要。试题资源构建时,需要对大量包含公式的数据进行解析,判断试题的难度、给出试题的答案等,因此如何准确地将公式字符从数据中识别出来具有重大意义。
现有方法在进行文本解析时,一般不单独对数学公式进行识别,而是直接将公式字符作为普通字符进行处理,如文本“若f(x)=x+1”中既包含非公式字符“若”,又包含公式字符“f(x)=x+1”,进行文本解析时,直接将公式字符看作普通字符进行分词处理或者按照固定的规则将文本字符与公式字符拆分开。
然而,由于公式字符中存在大量歧义字符,如“ax+b”中的字符“ax”和字符“b”,既可以作为英文字符,也可以作为公式字符,如果不进行公式字符的识别,很难得到正确的文本解析结果。现有的方法将公式字符作为普通字符进行分词处理,显然不合理,由于歧义字符的存在,造成大量错误的分词结果,影响后续操作。
发明内容
本发明提供一种数学公式识别方法及装置,以提升歧义字符的识别准确度。
为此,本发明提供如下技术方案:
一种数学公式识别方法,包括:
预先构建公式识别模型;
接收待识别文本;
提取待识别文本中各字符的公式识别特征;
利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式。
优选地,所述构建公式识别模型包括:
收集设定数量包含公式的文本数据作为训练数据;
提取所述训练数据中各字符的公式识别特征及公式标注特征;
利用所述公式识别特征及公式标注特征训练公式识别模型。
优选地,所述提取所述训练数据中各字符的公式识别特征包括:
采用滑动窗口的方法,依次以当前字符为中心移动滑动窗口;
提取窗口内每个字符的特征信息及当前字符的上下文模式特征作为当前字符的公式识别特征,所述上下文模式特征用于描述当前字符前后括号的匹配情况。
优选地,所述公式识别模型采用分类模型表征。
优选地,所述利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式包括:
在待识别文本的开始和结束分别添加一个开始状态和一个结束状态,并列出待识别文本中所有字符可能的识别结果,每个字符为一个状态,得到待识别文本的状态图;
采用动态规划方法在所述状态图中查找后验概率最大的路径作为最优路径,各路径的后验概率是将该路径上的所有字符的公式识别特征输入所述公式识别模型得到的;
根据最优路径上每个字符的取值得到待识别文本中的公式。
优选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610237543.4/2.html,转载请声明来源钻瓜专利网。





