[发明专利]一种基于隐马尔科夫模型的联机手写化学符号识别方法在审
| 申请号: | 201611251498.4 | 申请日: | 2016-12-30 |
| 公开(公告)号: | CN106650686A | 公开(公告)日: | 2017-05-10 |
| 发明(设计)人: | 杨巨峰;王恺;许静;陈丽怡 | 申请(专利权)人: | 南开大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46 |
| 代理公司: | 天津佳盟知识产权代理有限公司12002 | 代理人: | 侯力 |
| 地址: | 300071*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 隐马尔科夫 模型 联机 手写 化学 符号 识别 方法 | ||
1.一种基于隐马尔科夫模型的联机手写化学符号识别方法,其特征在于该方法包括以下步骤:
第1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理;
第2、针对第1步生成的联机手写化学符号集合提出环、非环粗分类特征提取方法;
第3、针对第2步提取出的粗分类特征,选用支持向量机进行环、非环的两类粗分类;
第4、在粗分类结果上,分别对环、非环符号提取基于点序列的局部特征;
第5、利用隐马尔科夫模型的方法实现联机手写化学符号的最终分类和识别。
2.根据权利要求1所述的方法,其特征在于第1步所述,定义的联机手写化学符号的集合与分类包括10个阿拉伯数字、24个大写字母、20个小写字母、10个化学操作符和38个有机环符号;定义的采集标准包括:样本代号命名规则、采集环境、书写规范程度和书写时间;这样采集到的符号样本满足多源异构的要求,具备代表性;所述的对采集到的符号进行预处理是指,对采集到的初始符号样本进行一系列符合其特点的预处理操作,包括:去除重复点、插值补点、检测锐点、去钩和平滑,从而使符号样本满足后续处理的需要。
3.根据权利要求1所述的方法,其特征在于第2步所述的环、非环粗分类特征提取方法包括两种:一种是将符号外接矩形分割为4×4的均匀网格,按照由上到下、由左到右的顺序依次计算位于每个子区域中坐标点的个数,经归一化处理后将得到的16维向量作为粗分类的网格特征;另一种是按先后顺序从样本图像的左、下、右、上4边分别向右、上、左、下4个方向扫描,直至扫描线遇到笔划或中轴,记下各自扫描线经过的距离即为该样本的外围轮廓特征,每个方向设置5条扫描线,该种特征共计20维。
4.根据权利要求1所述的方法,其特征在于第3步所述的环、非环的两类粗分类选用基于径向基内积函数的支持向量机实现,参数组合为:惩罚因子C=211,径向基核函数的参数γ=2。
5.根据权利要求1所述的方法,其特征在于第4步所述的基于点序列的局部特征是基于用户联机输入的笔划点序列提取;从化学符号的第一个采样点开始逐点记录该化学符号的特征表示,选取涵盖了特征点所处区域完整的位置信息和方向信息的11维局部特征,包括:归一化的水平距离、归一化的垂直距离、长宽比、弯曲、线性、归一化的一阶导数、归一化的二阶导数和书写方向;对于有机化学符号,在提取局部特征之前先进行点序列的重排操作。
6.根据权利要求1所述的方法,其特征在于第5步所述的隐马尔科夫模型的参数组合为:6状态、每个状态9个混合高斯。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611251498.4/1.html,转载请声明来源钻瓜专利网。





