[发明专利]数学公式识别方法及装置有效

申请号：	201610237543.4	申请日：	2016-04-14
公开（公告）号：	CN107301411B	公开（公告）日：	2020-07-10
发明（设计）人：	刘青文;张丹;邓晓栋;胡国平;胡郁;刘庆峰	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/32;G06K9/62
代理公司：	北京维澳专利代理有限公司 11252	代理人：	刘路尧;逢京喜
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数学公式识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数学公式识别方法及装置，该方法包括：预先构建公式识别模型；接收待识别文本；提取待识别文本中各字符的公式识别特征；利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别，得到识别出的公式。利用本发明，可以提升歧义字符的识别准确度。

技术领域

本发明涉及自然语言处理领域，具体涉及一种数学公式识别方法及装置。

背景技术

随着互联网的不断普及和互联网技术的迅速发展，传统的教育模式也在逐渐发生改变，信息、在线化、智能化等辅助教学手段正在向传统教育领域渗透，并逐步获得广大教师、家长和学生的认可。在以考试为主要评价方式的教育模式下，试题是学生巩固所学知识和教育者评价学生水平的基础数据资源，因此，试题资源的构建显得尤为重要。试题资源构建时，需要对大量包含公式的数据进行解析，判断试题的难度、给出试题的答案等，因此如何准确地将公式字符从数据中识别出来具有重大意义。

现有方法在进行文本解析时，一般不单独对数学公式进行识别，而是直接将公式字符作为普通字符进行处理，如文本“若f(x)＝x+1”中既包含非公式字符“若”，又包含公式字符“f(x)＝x+1”，进行文本解析时，直接将公式字符看作普通字符进行分词处理或者按照固定的规则将文本字符与公式字符拆分开。

然而，由于公式字符中存在大量歧义字符，如“ax+b”中的字符“ax”和字符“b”，既可以作为英文字符，也可以作为公式字符，如果不进行公式字符的识别，很难得到正确的文本解析结果。现有的方法将公式字符作为普通字符进行分词处理，显然不合理，由于歧义字符的存在，造成大量错误的分词结果，影响后续操作。

发明内容

本发明提供一种数学公式识别方法及装置，以提升歧义字符的识别准确度。

为此，本发明提供如下技术方案：

一种数学公式识别方法，包括：

预先构建公式识别模型；

接收待识别文本；

提取待识别文本中各字符的公式识别特征；

利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别，得到识别出的公式。

优选地，所述构建公式识别模型包括：

收集设定数量包含公式的文本数据作为训练数据；