[发明专利]文本识别方法、装置、电子设备及存储介质在审
申请号: | 202310102339.1 | 申请日: | 2023-01-18 |
公开(公告)号: | CN116052196A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 李翌昕;黄佳玉;沈磊;秦海波;宋凯强;崔元顺;林辉;段亦涛 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/14;G06V30/148;G06V30/414 |
代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 刁益帆 |
地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 存储 介质 | ||
1.一种文本识别方法,其特征在于,包括:
获取待批改文本图像;
检测所述待批改文本图像中的文本行,得到印刷体文本行以及手写文本行;
对所述手写文本行进行段落划分,得到每一段落对应的段落位置信息以及段落类别信息;
分别识别每一段落中的手写文本行,得到每一段落对应的识别文本;
基于所述段落位置信息以及所述段落类别信息对每一段落对应的识别文本进行组合,得到待批改文本内容。
2.根据权利要求1所述的文本识别方法,其特征在于,
所述检测所述待批改文本图像中的文本行,包括:
通过预设文字检测模型检测所述待批改文本图像中的文本行,所述预设文字检测模型为能够得到表示文本行位置的多边形区域并且能够区分所述印刷体文本行和所述手写文本行的模型。
3.根据权利要求1所述的文本识别方法,其特征在于,
所述对所述手写文本行进行段落划分,包括:
通过实例分割模型对所述待批改文本图像中由所述手写文本行构成的每一段落区域进行定位分割;所述实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。
4.根据权利要求3所述的文本识别方法,其特征在于,
所述通过实例分割模型对所述待批改文本图像中由所述手写文本行构成的每一段落区域进行定位分割,包括:
将所述待批改文本图像输入所述实例分割模型,至少得到分割特征图、段落区域置信度、区域类别向量、段落区域范围位置以及分割参数;
基于所述分割特征图、所述段落区域置信度、所述区域类别向量、所述段落区域范围位置以及所述分割参数对所述待批改文本图像中的每一段落区域进行定位分割。
5.根据权利要求4所述的文本识别方法,其特征在于,
所述基于所述分割特征图、所述段落区域置信度、所述区域类别向量、所述段落区域范围位置以及所述分割参数对所述待批改文本图像中的每一段落区域进行定位分割,包括:
基于所述段落区域置信度以及预设置信度阈值确定有效段落区域;
基于所述分割特征图以及所述分割参数形成段落区域分割图;
基于所述段落区域分割图以及所述段落区域范围位置确定所述区域位置信息;
基于所述区域类别向量确定所述区域类别信息,所述区域类别向量为N维向量,每一维度向量代表一个类别信息。
6.根据权利要求1所述的文本识别方法,其特征在于,
所述对所述手写文本行进行段落划分,包括:
通过段落聚合模型对所述手写文本行进行段落划分,所述段落聚合模型为通过提取所述待批改文本图像的图像特征并且结合所述图像特征和手写文本行的文本行位置信息进行段落划分预测的模型。
7.根据权利要求1所述的文本识别方法,其特征在于,
所述段落类别信息包含题目以及自然段;
所述基于所述段落位置信息以及所述段落类别信息对每一段落对应的识别文本进行组合,包括:
根据所述待批改文本图像和所述段落位置信息确定分栏布局信息;
根据所述段落位置信息以及所述分栏布局信息对每一段落进行排版,形成排版布局位置信息;
检测段落缩进信息;
根据当前分栏的末尾段落以及当前分栏的下一分栏的首个段落的缩进信息确定当前分栏的末尾段落与当前分栏的下一分栏的首个段落是否进行拼接,形成拼接状态信息;
根据所述段落类别信息、所述排版布局位置信息和所述拼接状态信息对每一段落对应的识别文本进行组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310102339.1/1.html,转载请声明来源钻瓜专利网。