[发明专利]医疗票据版面识别的方法、装置及计算机设备在审
申请号: | 202010896878.3 | 申请日: | 2020-08-31 |
公开(公告)号: | CN112036304A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 黎安;王航 | 申请(专利权)人: | 平安医疗健康管理股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34;G06K9/62 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 200001 上海市黄浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 票据 版面 识别 方法 装置 计算机 设备 | ||
本申请公开了一种医疗票据版面识别的方法、装置及计算机设备,涉及信息处理领域,应用于数字医疗场景,可以解决目前在对医疗票据版面进行识别时,处理工作量较大,导致工作效率较低,且提取出的医疗票据版面信息不够精准的问题。其中方法包括:标记样本医疗票据的版面信息;基于标注版面信息的样本医疗票据训练语义分割模型;利用符合预设训练标准的语义分割模型计算待识别医疗票据的目标矩阵;根据所述目标矩阵确定所述待识别医疗票据中各个版面区域的位置信息。本申请适用于对医疗票据版面的识别。
技术领域
本申请涉及信息处理领域,尤其涉及到一种医疗票据版面识别的方法、装置及计算机设备。
背景技术
在理赔行业中,往往需要提取医疗票据上的信息。近年来,随着机器学习和深度学习的兴起,OCR(Optical Character Recognition,光学字符识别)技术逐渐被应用到医疗票据的信息提取中。医疗票据OCR的主要步骤为:图像预处理-文本检测-文本识别-字段划分-字段后处理。在字段划分阶段,现有的方法主要基于文本检测的文本框和先验知识来大致的确认各个字段在医疗票据上的区域。
然而上述方法的处理逻辑较为复杂,对于不同板式的医疗票据需要使用不同的查找区域逻辑,无法使用统一的逻辑来处理全国的医疗票据,故导致处理工作量较大、工作效率较低。此外,由于针对医疗票据的版面识别,主要依赖于文本检测的结果,当检测结果不好时,字段划分的结果也会变差,故也会导致提取出的医疗票据版面信息不够精准。
发明内容
有鉴于此,本申请提供了一种医疗票据版面识别的方法、装置及计算机设备,主要目的在于解决目前在对医疗票据版面进行识别时,处理工作量较大,导致工作效率较低,且提取出的医疗票据版面信息不够精准的问题。
根据本申请的一个方面,提供了一种医疗票据版面识别的方法,该方法包括:
标记样本医疗票据的版面信息;
基于标注版面信息的样本医疗票据训练语义分割模型;
利用符合预设训练标准的语义分割模型计算待识别医疗票据的目标矩阵;
根据所述目标矩阵确定所述待识别医疗票据中各个版面区域的位置信息。
优选地,所述版面信息包括各个版面区域对应的标注矩阵,所述版面区域包括字段区域和背景区域;
所述标记样本医疗票据的版面信息,具体包括:
确定所述样本医疗票据中各个版面区域的位置坐标;
为各个所述版面区域分别配置独立的矩阵通道,并根据所述位置坐标确定各个所述矩阵通道对应的标注矩阵;
基于各个所述标注矩阵标注所述样本医疗票据。
优选地,所述确定所述样本医疗票据中各个版面区域的位置坐标,具体包括:
确定所述字段区域和所述背景区域对应的最小检测框;
将所述最小检测框对应的四个顶点坐标确定为所述所述字段区域和所述背景区域对应的位置坐标。
优选地,所述为各个所述版面区域分别配置独立的矩阵通道,并根据所述位置坐标确定各个所述矩阵通道对应的标注矩阵,具体包括:
为各个所述字段区域配置第一矩阵通道;
基于所述第一矩阵通道的第一预设规则,确定所述各个字段区域的第一标注矩阵,所述第一预设规则对应所述字段区域外像素点的像素值设置为0,所述字段区域内像素点的像素值设置为1;
为所述背景区域配置第二矩阵通道;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安医疗健康管理股份有限公司,未经平安医疗健康管理股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010896878.3/2.html,转载请声明来源钻瓜专利网。