[发明专利]选项选择状态的判断方法、装置、设备及可读存储介质在审
申请号: | 202210215161.7 | 申请日: | 2022-03-04 |
公开(公告)号: | CN114564941A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 曾琪淇;季鹏;闭思泽;邹双徽;刘春 | 申请(专利权)人: | 中信银行股份有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/226 |
代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 张博;张峰 |
地址: | 100020 北京市朝阳区光*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 选项 选择 状态 判断 方法 装置 设备 可读 存储 介质 | ||
本发明提供了选项选择状态的判断方法、装置、设备及可读存储介质,所述方法包括获取图片信息,所述图片信息包括待判断选择状态的信息;将所述图片信息转化为文本信息,所述文本信息中包括至少一条第一问题信息和所述第一问题信息所对应的所述待判断选择状态的选项信息;采用选中标签或未选中标签对所述文本信息中的所述待判断选择状态的所述选项信息进行标注,得到标签信息;将所述文本信息发送至训练后的选项状态推理模型转化为所述标签信息并推测得到第一信息,所述第一信息包括每个所述第一问题信息所对应的标注了所述选中标签的所述选项信息,本发明可以快速有效的提高选项状态识别的准确率,并减少OCR识别错误带来的误差。
技术领域
本发明涉及智能文档理解领域,具体而言,涉及选项选择状态的判断方法、装置、设备及可读存储介质。
背景技术
即使在流程自动化高速发展的今天,仍有许多场景不可避免地会运用到纸质化单据、WORD文档、PDF文档等非结构化的数据。在一些问卷和申请书模板中,为将问题转化为封闭式问题,模板设计者常预设选项,并提供复选框供用户选择。因此,在将非结构数据转换为计算机程序可理解的结构化数据时,复选框选择状态的解析成为了一个重要的课题。
但是,由于每个人的习惯不一,对复选框的填写有不同符号,无法列出所有的符号,造成无法对复选框所对应的选项选择状态进行判断,因此,需要一种跳出模板预设这一类的技术路线,应对不固定版式中的复选框的选项选择状态的判断。
发明内容
本发明的目的在于提供选项选择状态的判断方法、装置、设备及可读存储介质,以改善上述问题。
为了实现上述目的,本申请实施例提供了如下技术方案如下:
一方面,本申请实施例提供了选项选择状态的判断方法,所述方法包括:
获取图片信息,所述图片信息包括待判断选择状态的信息;
将所述图片信息转化为文本信息,所述文本信息中包括至少一条第一问题信息和所述第一问题信息所对应的所述待判断选择状态的选项信息;
采用选中标签或未选中标签对所述文本信息中的所述待判断选择状态的所述选项信息进行标注,得到标签信息;
将所述文本信息发送至训练后的选项状态推理模型转化为所述标签信息并推测得到第一信息,所述第一信息包括每个所述第一问题信息所对应的标注了所述选中标签的所述选项信息。
可选的,所述将所述图片信息转化为文本信息,包括:
对所述图片信息进行预处理,得到图片信息集合;
根据所述图片信息集合输入文字检测模型,得到文字切片的坐标信息集合,所述文字检测模型用于寻找所述图片信息中的文字坐标信息并输出所述文字切片的坐标信息;
将所述文字切片坐标信息集合发送至识别模型得到所述文字切片坐标信息集合对应的所述文本信息。
可选的,所述将所述图片信息转化为文本信息后,还包括:
对所述第一问题信息的表格框进行检测,找到所述表格框的四个顶点;
基于所述表格框的所述四个顶点确定所述第一问题信息属于所述表格框;
预设模板信息,所述模板信息包括按顺序设定在不同所述表格框中的第二问题信息和所述第二问题信息相对应的所述待判断选择状态的所述选项信息,定位所述第一问题信息中的关键词,所述第一问题信息匹配所述模板信息,选取出所述模板信息中与所述第一问题信息中的关键词匹配度最高的所述第二问题信息,得到所述第一问题信息的关键词与所述模板信息的所述第二问题信息的对应关系。
可选的,所述得到所述第一问题信息的关键词与所述模板信息的所述第二问题信息的对应关系后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信银行股份有限公司,未经中信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210215161.7/2.html,转载请声明来源钻瓜专利网。