[发明专利]一种基于隐马尔科夫模型的联机手写化学符号识别方法在审

专利信息
申请号: 201611251498.4 申请日: 2016-12-30
公开(公告)号: CN106650686A 公开(公告)日: 2017-05-10
发明(设计)人: 杨巨峰;王恺;许静;陈丽怡 申请(专利权)人: 南开大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/46
代理公司: 天津佳盟知识产权代理有限公司12002 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 隐马尔科夫 模型 联机 手写 化学 符号 识别 方法
【说明书】:

【技术领域】

发明属于模式识别与人机交互领域,具体涉及一种基于隐马尔科夫模型的联机手写化学符号识别方法。

【背景技术】

化学公式(化学方程式)是表示化学反应规律的式子,是化学及化学活动最重要的表现形式。化学公式和数学公式一样,是自然科学领域应用非常广泛的一种表达式。随着信息化社会的发展,越来越多的化学相关工作转移到电子设备上完成。然而如何快速、高效地将化学知识特别是化学公式录入到计算机中仍然是一个难题。目前,化学公式主要还是依靠专业软件进行录入,这类软件共有的缺点包括界面复杂、效率低下、操作繁琐、设备依赖。由于存在上述缺点,传统的基于鼠标、键盘的录入方式严重制约了化学知识特别是化学公式的数字化水平,一些正常的应用受到限制。因此,探索新的、快速高效的化学信息录入方式成为当务之急。与传统方式相比,基于电子笔的手写录入因其操作自然、界面简洁的特点更符合这一要求。

联机手写化学符号的识别问题独立于化学公式分析、理解及应用。其主要任务包括:高精度识别字母、数字、操作符、有机环等各类化学符号,同时传递有用的版面信息和时间序列给后续操作。因此提出一套比较完整的联机手写化学符号识别方法框架具有两方面的意义:一是为设计并实现一个独立的化学符号识别器打下基础,该识别器可以作为底层引擎提供给同类研究使用。二是用实时识别的结果支持公式级、物质级的语法分析和化学规则校验。

在整个联机手写化学公式处理问题中,符号识别起到核心作用,实现将用户输入的数字墨水“翻译”为可重用化学信息的功能。进行相关研究的难点包括:(1)化学符号集合规模较大,且其中的相似结构很多;(2)符号的大小、位置隐含着某些化学含义,识别出符号后还需要分析和传递这些隐含信息;(3)手写样本变形严重,笔划质量参差不齐。因此,准确识别手写化学符号是一项挑战性工作。

【发明内容】

本发明目的是解决联机手写化学符号的识别问题,提供一种基于隐马尔科夫模型的联机手写化学符号识别方法,以正确识别不同用户通过不同设备输入的手写化学符号。

本发明采取分级处理、逐层优化的策略解决【背景技术】中提到的难点。首先利用全局特征将整个问题拆分为无机符号(非环)识别和有机符号(环)识别两个子问题,在小集合上再提取精细局部特征进一步分类。这种分级处理的思想大幅度降低了匹配模型的性能消耗,提高了识别流程的可用性。此外还为识别主体提供了预处理和后处理等辅助技术支撑,两级优化的策略也保证了识别结果的可靠性。

为实现本发明目的需要着重从以下几方面考虑:

1、准确识别输入符号的能力。在将人的任意手写输入转换为数字结果的过程中,难免发生错误。作为输入的最基本单元,手写符号的识别准确率是评价系统可用性的重要指标。对于不同的应用系统,尽管标准不同,但都存在一个识别率的临界区间。当单符号的识别率未达到该边界值时,整段输入都将是不可读的。对本发明而言,提高化学符号识别率有两种策略:一是尽量选取有效的特征,规避书写变形带来的干扰;二是在识别后给出一个结果候选队列,利用化学规则遴选可信的结果。总之,联机手写化学符号必须具有较高的识别率才能满足实际应用的要求。

2、用户无关的能力。对于化学公式处理系统而言,同一套内核应该可以识别不同书写者的输入。即使公式的书写风格不一致,如笔划顺序不一、符号大小有异等,系统也应该正确辨识。一方面,加大训练样本规模可以涵盖更多的特殊情况。另一方面,引入适当的预处理机制也可以最大限度的消除多次书写之间的差异,统一符号规格。这些措施都有助于使系统具备用户无关的处理能力。

本发明技术方案

本发明在综合考虑以上几点的基础上,提出了一种基于隐马尔科夫模型的联机手写化学符号识别方法,该方法包括以下步骤:

第1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理;

第2、针对第1步生成的联机手写化学符号集合提出环、非环粗分类特征提取方法;

第3、针对第2步提取出的粗分类特征,选用支持向量机进行环、非环的两类粗分类;

第4、在粗分类结果上,分别对环、非环符号提取基于点序列的局部特征;

第5、利用隐马尔科夫模型的方法实现联机手写化学符号的最终分类和识别。

本发明的具体处理流程如下:

1、定义联机手写化学符号集合及分类和采集标准,对采集到的符号进行预处理

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611251498.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top