[发明专利]一种基于整字和偏旁部首的层次化建模方法及系统有效

专利信息
申请号: 202110523430.1 申请日: 2021-05-13
公开(公告)号: CN113221885B 公开(公告)日: 2022-09-06
发明(设计)人: 杨争艳;吴嘉嘉;张为泰;宋彦 申请(专利权)人: 中国科学技术大学
主分类号: G06V20/62 分类号: G06V20/62;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 金怡
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 偏旁 部首 层次 建模 方法 系统
【说明书】:

发明涉及一种基于整字和偏旁部首的层次化建模方法及系统,其方法包括:S1:将文本行图像经过卷积神经网络和循环神经网络,得到文本行图像的序列特征;S2:将文本行图像的序列特征,输入有注意力机制的整字解码模块,得到整字的上下文特征向量以及整字的解码结果;S3:将整字的上下文特征向量输入偏旁部首解码模块,得到整字层级下的各个偏旁部首的解码结果;S4:利用置信度得分融合策略,将整字和各偏旁部首的解码置信度进行融合,得到整字的识别结果。本发明提供的方法,不仅能实现整字的识别,同时实现该时刻偏旁部首的识别,通过整字和偏旁部首解码置信度融合的策略,不仅能够提升低频字的识别效果,同时最大化地保证了非低频字识别的效果。

技术领域

本发明涉及电子信息技术领域,具体涉及一种基于整字和偏旁部首的层次化建模方法及系统。

背景技术

在日常生活中,文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容,文字往往包含更强的语义信息,因此对图像中的文字提取和识别具有重大意义。随着深度学习的迅速发展,深度学习模型被广泛应用到文字识别领域。但是深度学习模型需要大量的数据进行训练,如果训练样本很少,很难将模型训练好。特别是对于类似于中文这样字符数量较多的语种,存在低频字识别较困难的问题。

现有的针对低频字识别的方案主要基于两个方面,首先是采用语言模型的方案,利用更多的文本语料训练一个语言模型,在语言模型的辅助下实现对低频字的识别,其次是采用偏旁部首建模的方案,即将文字按照偏旁部首进行拆分,比如“科”字,按照偏旁部首拆分,可以得到“禾”、“斗”,其中,表示左右结构。

对于语言模型的方案,低频字的识别过度依赖于语言模型,语言模型的语料选取严重影响低频字的识别效果,对于偏旁部首建模的方案,会造成整字拆分过细,比如“朋”字,拆成“月”、“月”,每个单独的结果都可以认为是一个整字,增加了识别的难度。

发明内容

为了解决上述技术问题,本发明提供一种基于整字和偏旁部首的层次化建模方法及系统。

本发明技术解决方案为:一种基于整字和偏旁部首的层次化建模方法,包括:

步骤S1:将文本行图像经过卷积神经网络和循环神经网络,得到所述文本行图像的序列特征;

步骤S2:将所述文本行图像的序列特征,输入有注意力机制的整字解码模块,得到整字的上下文特征向量以及整字的解码结果;

步骤S3:将所述整字的上下文特征向量输入偏旁部首解码模块,得到整字层级下的各个偏旁部首的解码结果;

步骤S4:利用置信度得分融合策略,分别计算所述整字的解码结果的置信度和所述各个偏旁部首的解码结果的置信度,并进行融合,得到最终的所述整字的识别结果。

本发明与现有技术相比,具有以下优点:

本发明提出一种基于整字和偏旁部首的层次化建模,借鉴了偏旁部首建模的思想,但是与现有的偏旁部首建模方法不同,本发明采用在整字建模的层级下,增加偏旁部首建模分支,每个时刻的上下文特征向量作为该整字下偏旁部首建模的输入,层级化的结构设计,不仅能实现整字的识别,同时实现该时刻偏旁部首的识别,最后通过整字建模置信度和偏旁部首建模置信度融合的策略,不仅能够提升低频字的识别效果,同时最大化地保证了非低频字识别的效果。

附图说明

图1为本发明实施例中一种基于整字和偏旁部首的层次化建模方法的流程图;

图2为本发明实施例中一种基于整字和偏旁部首的层次化建模方法中步骤S1:将文本行图像经过卷积神经网络和循环神经网络,得到所述文本行图像的序列特征的流程图;

图3为本发明实施例中一种基于整字和偏旁部首的层次化建模方法中步骤S2:将文本行图像的序列特征,输入有注意力机制的整字解码模块,得到整字的上下文特征向量以及整字的解码结果的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110523430.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top