[发明专利]一种文档识别方法及装置在审
| 申请号: | 202211536585.X | 申请日: | 2022-12-02 |
| 公开(公告)号: | CN116304261A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 陈颢寒;张星;李高杨 | 申请(专利权)人: | 北京易华录信息技术股份有限公司 |
| 主分类号: | G06F16/93 | 分类号: | G06F16/93;G06V30/416 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张艳清 |
| 地址: | 100043 北京市石景*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 识别 方法 装置 | ||
1.一种文档识别方法,其特征在于,包括:
获取待识别文档的图像数据;
根据所述图像数据识别所述待识别文档中各行文字的文本框和所述待识别文档的文字识别结果;
根据各所述文本框在所述图像数据中的位置信息将所述待识别文档的文字识别结果划分为多个文本块;
根据各所述文本框的高度在所述图像数据中的高度占比从所述文字识别结果中确定所述待识别文档的标题和正文;
按照所述待识别文档的各文本块、标题、正文对所述文字识别结果进行结构化合并,并将结构化合并后的文字识别结果进行存储。
2.根据权利要求1所述的文档识别方法,其特征在于,将所述图像数据输入文本识别模型中,通过所述文本识别模型获取所述文字识别结果;
所述文本识别模型包括卷积层、循环层、辅助层、转录层,其中,
所述卷积层用于采用卷积神经网络对所述图像数据进行特征提取,得到特征序列;
所述循环层用于采用Transformer Decoder预测所述特征序列的标签分布;
所述辅助层用于根据所述特征序列和所述标签分布计算损失值;客户案号
所述转录层用于采用CTC将所述标签分布转换为所述文字识别结果。
3.根据权利要求1所述的文档识别方法,其特征在于,根据各所述文本框的高度在图像数据中的高度占比从所述文字识别结果中确定所述待识别文档的标题和正文,包括:
按照所述各文本框的高度占比对所述文本框进行聚类,得到多个聚类簇;
根据各所述聚类簇中文本框的高度占比计算各所述聚类簇的高度占比均值;
对各所述聚类簇的高度占比均值进行非极大值抑制处理,得到各文本框中文字的字号;
根据各文本框中文字的字号确定所述待识别文档的标题和正文。
4.根据权利要求3所述的文档识别方法,其特征在于,按照所述各文本框的高度占比对所述文本框进行聚类,得到多个聚类簇,包括:
按照不同的聚类数对所述文本框进行聚类,得到各聚类数对应的聚类结果,所述聚类数小于或等于所述文本块的数量;
分别计算各聚类结果的和方差,根据和方差最小的聚类结果确定所述聚类簇。
5.根据权利要求3或4所述的文档识别方法,其特征在于,对各所述聚类簇的高度占比均值进行非极大值抑制处理,得到各文本框中文字的字号,包括:客户案号
将所述高度占比均值的当前索引作为旧索引;
对各所述聚类簇的高度占比均值从小到大排序,将排序后的平均值索引作为各所述聚类簇的新索引;
根据旧索引和新索引的映射关系,确定各文本框的聚类序号;
对各所述聚类簇的高度占比均值进行非极大值抑制处理,将受到抑制的高度占比对应的聚类序号确定为极大值对应的聚类序号;
将各文本框的聚类序号映射为自然数列,根据所述自然数列确定各文本框中文字的字号。
6.根据权利要求1所述的文档识别方法,其特征在于,所述文本框在所述图像数据中的位置信息包括所述文本框中心在所述图像数据中的纵坐标,在所述图像数据中的根据各所述文本框在所述图像数据中的位置信息将所述待识别文档的文字识别结果划分为多个文本块,包括:
根据各所述文本框中心在所述图像数据中的纵坐标依次计算相邻文本框之间的距离;
根据相邻文本框之间的距离将所述待识别文档的文字识别结果划分为多个文本块,将距离小于预设值的两个相邻文本框中的文字划入同一文本块中。
7.根据权利要求6所述的文档识别方法,其特征在于,还包括:
通过自然语言处理算法提取各所述文本块对应的关键词;
将各所述文本块对应的关键词与各所述文本块对应存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易华录信息技术股份有限公司,未经北京易华录信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211536585.X/1.html,转载请声明来源钻瓜专利网。





