[发明专利]业务单据影像内容识别方法及装置在审
| 申请号: | 202110243207.1 | 申请日: | 2021-03-05 |
| 公开(公告)号: | CN112926471A | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 张鹏;齐蓉;王虹;刘忆惠 | 申请(专利权)人: | 中国工商银行股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;王涛 |
| 地址: | 100140 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 业务 单据 影像 内容 识别 方法 装置 | ||
1.一种业务单据影像内容识别方法,其特征在于,所述的方法包括:
对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
2.如权利要求1所述的业务单据影像内容识别方法,其特征在于,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落包括:
根据所述文字位置信息确定段落候选区域;
利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
3.如权利要求2所述的业务单据影像内容识别方法,其特征在于,所述的文字信息还包括:文字的字体大小信息、文字的间隔距离及文字高度信息;所述的根据所述文字位置信息确定段落候选区域包括:
根据所述的文字位置信息确定初始的段落候选区域;
根据初始的段落候选区域中文字的字体大小、文字间隔距离及文字高度确定段落候选区域。
4.如权利要求1所述的业务单据影像内容识别方法,其特征在于,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
根据预设的关键字确定所述的识别文字中存在的关键字;
根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
5.如权利要求2所述的业务单据影像内容识别方法,其特征在于,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落还包括:
获取预先存储的业务文本数据;
利用所述业务文本数据对预设的初始的语言模型进行模型训练生成预设的语义判别模型。
6.如权利要求4所述的业务单据影像内容识别方法,其特征在于,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
获取预先存储的业务键值对数据;其中,所述的业务键值对数据包括:业务的关键字及关键字对应的段落数据;
利用所述的业务的关键字及关键字对应的段落数据对预设的初始的文本分类模型进行模型训练生成预设的文本分类模型。
7.一种业务单据影像内容识别装置,其特征在于,所述的装置包括:
文字识别模块,用于对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
段落生成模块,用于根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
匹配模块,用于根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
8.如权利要求7所述的业务单据影像内容识别装置,其特征在于,所述的段落生成模块包括:
段落候选区域确定单元,用于根据所述文字位置信息确定段落候选区域;
判别单元,用于利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
9.如权利要求7所述的业务单据影像内容识别装置,其特征在于,所述的匹配模块包括:
关键字查找单元,根据预设的关键字确定所述的识别文字中存在的关键字;
候选目标段落确定单元,根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
分类匹配单元,用于利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110243207.1/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





