[发明专利]文本结构化处理方法、处理装置、电子设备以及存储介质在审
申请号: | 202110921811.5 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113627439A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 于海鹏;梁思远;李煜林;钦夏孟;姚锟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06F16/332;G06F16/35;G06F40/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕朝蕙 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 结构 处理 方法 装置 电子设备 以及 存储 介质 | ||
1.一种文本结构化处理方法,包括:
对文本图像进行文本检测,得到与所述文本图像对应的至少一个文本检测框的类别信息,其中,所述类别信息包括关键字类别或数值类别;
确定与所述至少一个文本检测框中的目标文本检测框对应的文本图像,其中,所述目标文本检测框是所述类别信息为所述数值类别的文本检测框;
对与所述目标文本检测框对应的文本图像进行文本识别,得到与所述目标文本检测框对应的文本图像的文本识别结果;
对所述文本识别结果进行文本分类,得到与所述文本识别结果对应的语义类别结果;以及
生成文本结构化结果,其中,所述文本结构化结果包括与所述关键字类别对应的值和与所述数值类别对应的值,与所述关键字类别对应的值包括所述语义类别结果,与所述数值类别对应的值包括所述文本识别结果。
2.根据权利要求1所述的方法,其中,所述对所述文本识别结果进行文本分类,得到与所述文本识别结果对应的语义类别结果,包括:
利用文本分类模型处理与所述文本识别结果,得到与所述文本识别结果对应的语义类别结果。
3.根据权利要求2所述的方法,其中,所述文本分类模型包括深度学习模型。
4.根据权利要求1~3中任一项所述的方法,其中,所述对文本图像进行文本检测,得到与所述文本图像对应的至少一个文本检测框的类别信息,包括:
对所述文本图像进行文本检测,得到与所述文本图像对应的至少一个文本检测框的类别信息和位置信息;
其中,所述确定与所述至少一个文本检测框中的目标文本检测框对应的文本图像,包括:
根据与所述至少一个文本检测框中的目标文本检测框对应的位置信息,从所述文本图像中提取出与所述目标文本检测框对应的文本图像。
5.根据权利要求4所述的方法,其中,所述根据与所述至少一个文本检测框中的目标文本检测框对应的位置信息,从所述文本图像中提取出与所述目标文本检测框对应的文本图像,包括:
利用仿射变换将与所述至少一个文本检测框中的目标文本检测框对应的位置信息转换为目标位置信息;以及
根据所述目标位置信息,从所述文本图像中提取出与所述目标文本检测框对应的文本图像。
6.根据权利要求1~5中任一项所述的方法,其中,所述对文本图像进行文本检测,得到与所述文本图像对应的至少一个文本检测框的类别信息,包括:
利用文本检测模型处理所述文本图像,得到与所述文本图像对应的至少一个文本检测框的类别信息。
7.根据权利要求1~6中任一项所述的方法,其中,所述对与所述目标文本检测框对应的文本图像进行文本识别,得到与所述目标文本检测框对应的文本图像的文本识别结果,包括:
利用文本识别模型处理与所述目标文本检测框对应的文本图像,得到与所述目标文本检测框对应的文本图像的文本识别结果。
8.根据权利要求1~7中任一项所述的方法,还包括:
利用数据预处理得到所述文本图像,其中,所述数据预处理包括以下至少一项:降噪处理、倾斜校正处理和锐化处理。
9.根据权利要求1~8中任一项所述的方法,其中,所述文本图像包括医疗文本图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921811.5/1.html,转载请声明来源钻瓜专利网。