[发明专利]一种文档识别方法及装置在审
| 申请号: | 202211536585.X | 申请日: | 2022-12-02 |
| 公开(公告)号: | CN116304261A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 陈颢寒;张星;李高杨 | 申请(专利权)人: | 北京易华录信息技术股份有限公司 |
| 主分类号: | G06F16/93 | 分类号: | G06F16/93;G06V30/416 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张艳清 |
| 地址: | 100043 北京市石景*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 识别 方法 装置 | ||
本发明提供了一种文档识别方法及装置,其中,该方法包括:获取待识别文档的图像数据;根据图像数据识别待识别文档中各行文字的文本框和待识别文档的文字识别结果;根据各文本框在图像数据中的位置信息将待识别文档的文字识别结果划分为多个文本块;根据各文本框的高度在图像数据中的高度占比从文字识别结果中确定待识别文档的标题和正文;按照待识别文档的各文本块、标题、正文对文字识别结果进行结构化合并,并将结构化合并后的文字识别结果进行存储。实施本发明不需要人工即可完成对文档的管理,提高了效率,并且,将文字识别结果进行结构化合并后,更便于存储以及后续查询维护。
技术领域
本发明涉及文档管理技术领域,具体涉及一种文档识别方法及装置。
背景技术
各单位的电子档案种类繁多,管理困难,尤其是对于PDF文档,需要管理人员手动对文档内容进行摘录,并完成文档的收录。但是,管理人员对档案价值的认知程度低,无法真正做到毫无损坏的保存档案信息,从而造成档案信息的流失和损坏,甚至由于疏忽会导致档案失真,并且,人工管理档案效率较低。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中人工管理档案效率较低的缺陷,从而提供一种文档识别方法及装置。
本发明第一方面提供了一种文档识别方法,包括:获取待识别文档的图像数据;根据图像数据识别待识别文档中各行文字的文本框和待识别文档的文字识别结果;根据各文本框在图像数据中的位置信息将待识别文档的文字识别结果划分为多个文本块;根据各文本框的高度在图像数据中的高度占比从文字识别结果中确定待识别文档的标题和正文;按照待识别文档的各文本块、标题、正文对文字识别结果进行结构化合并,并将结构化合并后的文字识别结果进行存储。
可选地,在本发明提供的种文档识别方法中,将图像数据输入文本识别模型中通过文本识别模型获取文字识别结果;文本识别模型包括卷积层、循环层、辅助层、转录层,其中,卷积层用于采用卷积神经网络对图像数据进行特征提取,得到特征序列;循环层用于采用Transformer Decoder预测特征序列的标签分布;辅助层用于根据特征序列和标签分布计算损失值;转录层用于采用CTC将标签分布转换为文字识别结果。
可选地,在本发明提供的种文档识别方法中,根据各文本框的高度在图像数据中的高度占比从文字识别结果中确定待识别文档的标题和正文,包括:按照各文本框的高度占比对文本框进行聚类,得到多个聚类簇;根据各聚类簇中文本框的高度占比计算各聚类簇的高度占比均值;对各聚类簇的高度占比均值进行非极大值抑制处理,得到各文本框中文字的字号;根据各文本框中文字的字号确定待识别文档的标题和正文。
可选地,在本发明提供的种文档识别方法中,按照各文本框的高度占比对文本框进行聚类,得到多个聚类簇,包括:按照不同的聚类数对文本框进行聚类,得到各聚类数对应的聚类结果,聚类数小于或等于文本块的数量;分别计算各聚类结果的和方差,根据和方差最小的聚类结果确定聚类簇。
可选地,在本发明提供的种文档识别方法中,对各聚类簇的高度占比均值进行非极大值抑制处理,得到各文本框中文字的字号,包括:将高度占比均值的当前索引作为旧索引;对各聚类簇的高度占比均值从小到大排序,将排序后的平均值索引作为各聚类簇的新索引;根据旧索引和新索引的映射关系,确定各文本框的聚类序号;对各聚类簇的高度占比均值进行非极大值抑制处理,将受到抑制的高度占比对应的聚类序号确定为极大值对应的聚类序号;将各文本框的聚类序号映射为自然数列,根据自然数列确定各文本框中文字的字号。
可选地,在本发明提供的种文档识别方法中,文本框在图像数据中的位置信息包括文本框中心在图像数据中的纵坐标,在图像数据中的根据各文本框在图像数据中的位置信息将待识别文档的文字识别结果划分为多个文本块,包括:根据各文本框中心在图像数据中的纵坐标依次计算相邻文本框之间的距离;根据相邻文本框之间的距离将待识别文档的文字识别结果划分为多个文本块,将距离小于预设值的两个相邻文本框中的文字划入同一文本块中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易华录信息技术股份有限公司,未经北京易华录信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211536585.X/2.html,转载请声明来源钻瓜专利网。





