[发明专利]文本识别方法、装置及设备有效
| 申请号: | 201910197234.2 | 申请日: | 2019-03-15 |
| 公开(公告)号: | CN111695385B | 公开(公告)日: | 2023-09-26 |
| 发明(设计)人: | 程战战 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
| 主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/148;G06V30/19;G06V10/82;G06N3/0442;G06N3/045;G06N3/0895;G06N3/092 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 310051 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 识别 方法 装置 设备 | ||
本说明书提供一种文本识别方法、装置及设备,该方案预先训练有切割模型,由切割模型获得待识别文本图像的切割位置,从而可以将待识别文本图像切割出大小合适的子图像,防止图像中的文本被不完整切割;由于将图像切割了多个子图像,为了防止上下文信息丢失,已训练的文本识别模型可以识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出各子图像对应的文本信息,进而可识别所述待识别文本图像。
技术领域
本说明书涉及文本识别技术领域,尤其涉及文本识别方法、装置及设备。
背景技术
现有的文本识别方案大多数是单字符识别方案或短文本识别方案。其中,单字符识别方案通常是先获取单个字符,然后对单个字符进行分类,进而得到识别结果,该类方案具有成本高昂等缺陷。短文本识别方案对于较短文本的识别具有优势,但如果面临几十个字符以上的长度的长文本识别,则准确率大幅下降。
发明内容
为克服相关技术中存在的问题,本说明书提供了文本识别方法、装置及设备。
根据本说明书实施例的第一方面,提供一种文本识别方法,所述方法包括:
利用已训练的切割模型确定待识别文本图像的一个或多个切割位置;
根据所述一个或多个切割位置,将所述待识别文本图像切割为至少两个子图像;
将各个子图像输入至已训练的文本识别模型,由所述文本识别模型识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出子图像对应的文本信息;
根据识别出的各子图像对应的文本信息,识别所述待识别文本图像。
可选的,所述文本识别模型中包括:双向长短时记忆网络BLSTM;
所述BLSTM在当前子图像为输入的首个子图像时,结合下一子图像的初始隐状态携带的语义特征信息识别出当前子图像对应的文本信息;
所述BLSTM在当前子图像为输入的最后一个子图像时,结合上一子图像的最终隐状态携带的语义特征信息识别出当前子图像对应的文本信息;
所述BLSTM在当前子图像不为输入的首个子图像、最后一个子图像时,结合上一子图像的最终隐状态和/或下一子图像的初始隐状态分别携带的语义特征信息识别出当前子图像对应的文本信息。
可选的,所述根据所述文本识别模型识别出的各子图像对应的文本信息,识别所述待识别文本图像,包括:
按照所述各子图像在所述待识别文本图像中的排列顺序,将各子图像对应的文本信息进行拼接,根据拼接结果确定所述待识别文本图像对应的文本。
可选的,所述切割模型通过如下方式训练得到:
配置增强学习算法的如下输入参数:环境、动作空间、状态空间和奖励,利用配置好参数的增强学习算法训练得到所述切割模型;其中,
所述环境包括:样本单行文本图像,所述样本单行文本图像标注有对应文本;
所述动作空间包括:对所述样本单行文本图像中设定大小窗口内的切割动作;
所述状态空间包括:所述样本单行文本图像被切割之后得到的两个样本子图像;
所述奖励基于拼接结果是否匹配所述样本单行文本图像的标注文本而确定;所述拼接结果利用文本识别模型分别对两个所述样本子图像的识别结果拼接得到。
可选的,所述利用已训练的切割模型确定待识别文本图像的一个或多个切割位置,包括:
从所述待识别文本图像中获取待评估窗口图像,将所述待评估窗口图像输入至所述切割模型中,由所述切割模型在所述待评估窗口图像中获取切割位置;其中,所述待评估窗口图像的大小与所述设定大小窗口的大小相匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910197234.2/2.html,转载请声明来源钻瓜专利网。





