[发明专利]公式识别方法和装置在审
| 申请号: | 201911169454.0 | 申请日: | 2019-11-22 |
| 公开(公告)号: | CN111046751A | 公开(公告)日: | 2020-04-21 |
| 发明(设计)人: | 张浩;黄涛;刘三女牙;杨宗凯;杨华利;夏雨 | 申请(专利权)人: | 华中师范大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N20/00 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张磊 |
| 地址: | 430000 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 公式 识别 方法 装置 | ||
本发明提供了一种公式识别方法和装置;其中,该方法包括:获取待处理数据;提取待处理数据的笔迹特征;根据待处理数据中笔划的输入顺序以及笔迹特征,生成待处理数据对应的用户行为链;用户行为链用于指示待处理数据中符号之间的时序关系;将用户行为链输入至预设的公式识别模型中,输出待处理数据的公式识别结果。该方法根据待处理数据中笔划的输入顺序和笔迹特征生成可以指示待处理数据中符号之间的时序关系的用户行为链,将该用户行为立案输入至预设的公式识别模型,由公式识别模型输出公式识别结果,通过用户行为链指示时序关系,在识别过程中考虑公式的时序性,以简化识别步骤,减少识别时间,增加识别准确率。
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种公式识别方法和装置。
背景技术
技术问题:相关技术中,可以通过符号识别和结构分析相结合的方法识别公式,这种方法需要对公式数据切分后的一个个的字符进行符号识别,之后进行结构的分析。在公式识别的过程中的每一步都是独立的,导致识别过程没有考虑公式的时序性,识别步骤复杂,识别时间较长,并且准确率较低。
发明内容
有鉴于此,本发明的目的在于提供一种公式识别方法和装置,在识别过程中考虑公式的时序性,以简化识别步骤,减少识别时间,增加识别准确率。
第一方面,本发明实施例提供了一种公式识别方法,包括:获取待处理数据;提取待处理数据的笔迹特征;笔迹特征包括笔划的位置特征和几何特征;根据待处理数据中笔划的输入顺序以及笔迹特征,生成待处理数据对应的用户行为链;用户行为链用于指示待处理数据中符号之间的时序关系;将用户行为链输入至预设的公式识别模型中,输出待处理数据的公式识别结果。
在本发明较佳的实施例中,上述位置特征包括笔划位置;几何特征包括笔划开始方向、笔划结束方向和笔迹曲率;上述提取待处理数据的笔迹特征的步骤,包括:从待处理数据中提取预设数量的行为点;根据预设的坐标系,确定行为点的坐标;根据行为点的坐标计算笔划位置、笔划开始方向、笔划结束方向和笔迹曲率。
在本发明较佳的实施例中,上述行为点包括笔划的初始行为点,以及与初始行为点相邻的下一个行为点;上述根据行为点的坐标计算笔划开始方向的步骤,包括:通过以下算式计算初始行为点和下一个行为点连线与坐标系的水平轴的第一夹角:其中,θ1为第一夹角,(x1,y1)为初始行为点的坐标,(x2,y2)为下一个行为点的坐标;将夹角确定为笔划开始方向。
在本发明较佳的实施例中,上述行为点包括笔划的结束行为点,以及与结束行为点相邻的上一个行为点;上述根据行为点的坐标计算笔划结束方向的步骤,包括:通过以下算式计算结束行为点和上一个行为点连线与坐标系的水平轴的第二夹角:其中,θ2为第二夹角,(xn-1,yn-1)为上一个行为点的坐标,(xn,yn)为结束行为点的坐标;将夹角确定为笔划结束方向。
在本发明较佳的实施例中,上述根据行为点的坐标计算笔迹曲率的步骤,包括:从行为点中提取目标行为点;针对每个目标行为点,获取与当前目标行为点相邻的前一个行为点和后一个行为点;通过以下算式计算当前目标行为点的笔迹曲率:K=(cos θ3,sinθ3);其中,K为笔迹曲率,θ3为笔迹曲率的曲率角,(xt-1,yt-1)为前一个行为点的坐标,目标行为点的坐标为(xt,yt),后一个行为点的坐标为(xt+1,yt+1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911169454.0/2.html,转载请声明来源钻瓜专利网。





