[发明专利]数学公式识别方法及装置有效
| 申请号: | 201610237543.4 | 申请日: | 2016-04-14 |
| 公开(公告)号: | CN107301411B | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 刘青文;张丹;邓晓栋;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/62 |
| 代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 刘路尧;逢京喜 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数学公式 识别 方法 装置 | ||
1.一种数学公式识别方法,其特征在于,包括:
预先构建公式识别模型;
接收待识别文本;
提取待识别文本中各字符的公式识别特征,所述公式识别特征包括:用当前字符及其前后字符的特征来共同表征的该当前字符的特征信息;
利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式。
2.根据权利要求1所述的方法,其特征在于,所述构建公式识别模型包括:
收集设定数量包含公式的文本数据作为训练数据;
提取所述训练数据中各字符的公式识别特征及公式标注特征;
利用所述公式识别特征及公式标注特征训练公式识别模型。
3.根据权利要求2所述的方法,其特征在于,所述提取所述训练数据中各字符的公式识别特征包括:
采用滑动窗口的方法,依次以当前字符为中心移动滑动窗口;
提取窗口内每个字符的特征信息及当前字符的上下文模式特征作为当前字符的公式识别特征,所述上下文模式特征用于描述当前字符前后括号的匹配情况。
4.根据权利要求2所述的方法,其特征在于,所述公式识别模型采用分类模型表征。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式包括:
在待识别文本的开始和结束分别添加一个开始状态和一个结束状态,并列出待识别文本中所有字符可能的识别结果,每个字符为一个状态,得到待识别文本的状态图;
采用动态规划方法在所述状态图中查找后验概率最大的路径作为最优路径,各路径的后验概率是将该路径上的所有字符的公式识别特征输入所述公式识别模型得到的;
根据最优路径上每个字符的取值得到待识别文本中的公式。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
采用列表方式展示所述识别出的公式;或者
在所述待识别文本中标识所述识别出的公式。
7.根据权利要求6所述的方法,其特征在于,所述在所述待识别文本中标识所述识别出的公式包括:
改变所述待识别文本中识别出的公式的颜色;或者
使用线条标识所述待识别文本中识别出的公式。
8.一种数学公式识别装置,其特征在于,包括:
模型构建模块,用于预先构建公式识别模型;
接收模块,用于接收待识别文本;
特征提取模块,用于提取待识别文本中各字符的公式识别特征,所述公式识别特征包括:用当前字符及其前后字符的特征来共同表征的该当前字符的特征信息;
识别模块,用于利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式。
9.根据权利要求8所述的装置,其特征在于,所述模型构建模块包括:
训练数据收集单元,用于收集设定数量包含公式的文本数据作为训练数据;
提取单元,用于提取所述训练数据中各字符的公式识别特征及公式标注特征;
训练单元,用于利用所述公式识别特征及公式标注特征训练公式识别模型。
10.根据权利要求9所述的装置,其特征在于,
所述提取单元,具体用于采用滑动窗口的方法,依次以当前字符为中心移动滑动窗口,提取窗口内每个字符的特征信息及当前字符的上下文模式特征作为当前字符的公式识别特征,所述上下文模式特征用于描述当前字符前后括号的匹配情况。
11.根据权利要求9所述的装置,其特征在于,所述公式识别模型采用分类模型表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610237543.4/1.html,转载请声明来源钻瓜专利网。





