[发明专利]一种文本识别方法和装置在审

申请号：	202010486672.3	申请日：	2020-06-01
公开（公告）号：	CN111783541A	公开（公告）日：	2020-10-16
发明（设计）人：	高大帅;李健;武卫不	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32;G06K9/46;G06N3/04
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种文本识别方法和装置，涉及光学字符识别技术领域。本发明通过在文本识别模型中，设置可以检测第一图像数据中第一文字像素的第一排版方向和第一旋转角度的文字行检测分支，以及可以对不同第一排版方向的第一文字像素分别进行文本识别的文字行识别分支，精简了文本识别模型的规模，提高了文本识别模型的鲁棒性；而且只需输入第一图像数据即可获得文本识别模型输出的第一识别文本，无需在多个模型间输入、输出，提高了文本识别的效率；最后，能够对相同排版方向对应的文字像素进行集中识别，避免了排版方向不同的文本混合识别造成的效率低、误差大的问题。

技术领域

本发明涉及光学字符识别技术领域，特别是涉及一种文本识别方法和装置。

背景技术

目前，对文本的识别已扩大到图像文本的识别领域，通常包括对拍摄的图片、扫描的PDF(Portable Document Format，便携式文档格式)文档等文本的识别。

但是，基于拍摄、扫描的角度、拍摄效果的差异，或拍摄场景、扫描文本的差异，使得图像文本可能对应任意方向。在现有识别过程中通常需要布置多个独立的模型，对混合的、任意方向的图像文本依次进行文字行检测、文字行旋转角度估计、文字排版方向判断、文字行识别，使得文本识别效率低，误差大；另外，在识别过程中涉及多个独立模型，且每个模型涉及的参数较多，此时，每个模型都需要对应调参以获得更好的识别结果，识别过程鲁棒性较差。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题的一种文本识别方法和装置。

依据本发明的第一方面，提供了一种文本识别方法，该方法可以包括：

获取第一图像数据，所述第一图像数据包括任意方向的第一文字像素；

通过文本识别模型的文字行检测分支检测所述第一文字像素，获得第一排版方向以及第一旋转角度；

通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度；

通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别，获得第一识别文本。

可选地，所述文字行识别分支包括排版识别子分支，所述通过所述文字行识别分支对不同所述第一排版方向对应的所述第一文字像素分别进行文本识别，获得第一识别文本，包括：

通过所述文字行识别分支确定所述第一排版方向对应的排版识别子分支；

通过所述排版识别子分支对所述第一排版方向对应的所述第一文字像素进行识别，获得第一识别文本。

可选地，所述通过所述文本识别模型的文字行识别分支调整所述第一文字像素的第一旋转角度为预设旋转角度，包括：

通过所述文本识别模型的所述文字行识别分支调整所述第一文字像素的第一旋转角度为0。