[发明专利]文本识别方法和电子设备有效
申请号: | 202210982026.5 | 申请日: | 2022-08-16 |
公开(公告)号: | CN115063800B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 王章成;赵德丽;吕逸良;赵永飞;马傲 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06V30/10 | 分类号: | G06V30/10;G06V30/18;G06V30/19;G06V20/40 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 李静茹 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 电子设备 | ||
本发明公开了一种文本识别方法和电子设备。其中,该方法包括:获取待识别的视频,其中,待识别的视频中至少存在一帧图像包含有待识别的文本;对待识别的视频进行采样,得到目标图像,其中,目标图像为视频中包含了待识别的文本的图像;对目标图像的第一原始信息进行数据增强,得到目标图像的第一附加信息,其中,第一原始信息至少包括:目标图像的三原色信息,第一附加信息包括如下至少之一:目标图像的色相信息、饱和度信息、明度信息和边缘信息;基于第一原始信息和第一附加信息对目标图像进行文本识别,得到待识别的文本的目标识别结果。本申请提供的视频识别方案解决了相关技术中对视频中文本进行识别的准确度较低的技术问题。
技术领域
本发明涉及文本处理领域,具体而言,涉及一种文本识别方法和电子设备。
背景技术
随着深度学习的飞速发展,文字识别(Optical Character Recognition,简称OCR)领域取得了飞速的发展,许多利用神经网络和特征提取网络的网络架构被提出,并且不断刷新各个数据集的指标,但是,目前关于视频文字识别的研究还处于初级阶段,其是将视频解帧,然后利用文本检测和跟踪的方法获取潜在的文字区域,将其退化成一个图像文字识别的问题,然后利用图像文字识别的方法进行识别,最后使用文本跟踪的信息对识别结果进行输出。但是,在这个过程中会受到视频清晰度、艺术字体、复杂背景、场景多样的影响,导致最终识别结果的准确度较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本识别方法和电子设备,以至少解决相关技术中对视频中文本进行识别的准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本识别方法,包括:获取待识别的视频,其中,待识别的视频中至少存在一帧图像包含有待识别的文本;对待识别的视频进行采样,得到目标图像,其中,目标图像为视频中包含了待识别的文本的图像;对目标图像的第一原始信息进行数据增强,得到目标图像的第一附加信息,其中,第一原始信息至少包括:目标图像的三原色信息,第一附加信息包括如下至少之一:目标图像的色相信息、饱和度信息、明度信息和边缘信息;基于第一原始信息和第一附加信息对目标图像进行文本识别,得到待识别的文本的目标识别结果。
根据本发明实施例的另一方面,还提供了一种模型训练方法,包括:获取训练样本,其中,训练样本包含训练文本;对训练样本的原始信息进行数据增强,得到训练样本的附加信息,其中,原始信息至少包括:训练样本的三原色信息,附加信息包括如下至少之一:训练样本的色相信息、饱和度信息、明度信息和边缘信息;利用初始识别模型基于原始信息和附加信息对训练样本进行文本识别,得到识别文本;基于训练文本和识别文本对初始识别模型的模型参数进行调整,得到文本识别模型。
根据本发明实施例的另一方面,还提供了一种文本识别方法,包括:获取待识别的图像,其中,待识别的图像包含待识别的文本;对待识别的图像的第一原始信息进行数据增强,得到待识别的图像的第一附加信息,其中,第一原始信息至少包括:待识别的图像的三原色信息,第一附加信息包括如下至少之一:待识别的图像的色相信息、饱和度信息、明度信息和边缘信息;基于第一原始信息和第一附加信息对待识别的图像进行文本识别,得到待识别的文本的目标识别结果。
根据本发明实施例的另一方面,还提供了一种文本识别方法,包括:响应作用于操作界面上的输入指令,在操作界面上显示待识别的视频,其中,待识别的视频中至少存在一帧图像包含有待识别的文本;响应作用于操作界面上的文本识别指令,在操作界面上显示待识别的文本的目标识别结果,其中,目标识别结果是基于目标图像的第一原始信息和第一附加信息对目标图像进行文本识别得到的识别结果,目标图像通过对待识别的视频进行采样得到,第一附加信息通过对第一原始信息进行数据增强得到,第一原始信息包括:目标图像的三原色信息,第一附加信息包括如下至少之一:目标图像的色相信息、饱和度信息、明度信息和边缘信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210982026.5/2.html,转载请声明来源钻瓜专利网。