[发明专利]文字识别方法、装置、计算机可读介质及电子设备在审

专利信息
申请号: 201911260301.7 申请日: 2019-12-10
公开(公告)号: CN111062389A 公开(公告)日: 2020-04-24
发明(设计)人: 高文龙;史仪男 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06K9/32 分类号: G06K9/32;G06K9/62
代理公司: 深圳市隆天联鼎知识产权代理有限公司 44232 代理人: 王鹏健
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文字 识别 方法 装置 计算机 可读 介质 电子设备
【说明书】:

本申请的实施例提供了一种文字识别方法、装置、计算机可读介质及电子设备。该文字识别方法包括:获取包含有文本信息的待处理图片,检测待处理图片中包含的各个文本区域;通过预训练的、用于文字识别的第一模型识别各个文本区域中所包含的文本信息,第一模型通过包含有敏感信息的文本区域,以及与包含有敏感信息的文本区域对应的设定输出信息训练得到;输出第一模型识别出的文本信息。本申请实施例的技术方案通过基于包含敏感信息的文本区域及其设定输出信息训练得到文字识别的第一模型,以在文本区域中包含敏感信息时直接输出设定输出信息,进而从模型层面避免了识别出文字之后再甄别而造成的敏感信息泄露的风险,提高了信息的私密性。

技术领域

本申请涉及计算机及通信技术领域,具体而言,涉及一种文字识别方法、装置、计算机可读介质及电子设备。

背景技术

随着文字识别的需求和精确度越来越高,一般通过构建文字识别模型对图像中的文字进行识别,以达到更高的识别精度。但是这些识别方法或者文字识别模型无法满足差异化的文字识别需求,尤其是在识别对象中包括了隐私信息、或者用户隐私需求较高的情况下,无法保证信息的私密性,导致文字识别的效果较低。

发明内容

本申请的实施例提供了一种文字识别方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以从模型层面避免了识别出文字之后再甄别而造成的敏感信息泄露,提高了信息的私密性。

本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面,提供了一种文字识别方法,包括获取包含有文本信息的待处理图片;检测所述待处理图片中包含的各个文本区域;通过预训练的第一模型识别所述各个文本区域中所包含的文本信息,其中,所述第一模型通过包含有负样本区域的训练数据训练得到,所述负样本区域包括:包含有敏感信息的文本区域,以及与所述包含有敏感信息的文本区域对应的设定输出信息;输出所述第一模型识别出的文本信息。

根据本申请实施例的一个方面,提供了一种文字识别装置,包括:获取单元,用于获取包含有文本信息的待处理图片;检测单元,用于检测所述待处理图片中包含的各个文本区域;识别单元,用于通过预训练的第一模型识别所述各个文本区域中所包含的文本信息,其中,所述第一模型通过包含有负样本区域的训练数据训练得到,所述负样本区域包括:包含有敏感信息的文本区域,以及与所述包含有敏感信息的文本区域对应的设定输出信息;输出单元,用于输出所述第一模型识别出的文本信息。

在本申请的一些实施例中,基于前述方案,所述文字识别装置包括:第一选取单元,用于基于所述第一模型对至少两个文本区域样本的识别结果,从所述至少两个文本区域样本中选取负样本区域;第一训练单元,用于将从所述至少两个文本区域中选取的负样本区域作为新的文本区域样本对所述第一模型进行训练。

在本申请的一些实施例中,基于前述方案,所述第一选取单元包括:第一计算单元,用于基于所述第一模型对至少两个文本区域样本的识别结果,计算各文本区域对应的损失值;第二计算单元,用于根据所述各文本区域对应的损失值,确定所述至少两个文本区域样本对应的平均损失;第二选取单元,用于若所述平均损失小于损失阈值,则从所述至少两个文本区域样本中选取负样本区域。

在本申请的一些实施例中,基于前述方案,所述第二选取单元配置为:根据所述平均损失和滑动参数,确定平均滑动损失;将损失值小于所述平均滑动损失时对应的文本区域选取为所述负样本区域。

在本申请的一些实施例中,基于前述方案,所述待处理图片包括检验报告;所述文字识别装置还包括:第一识别单元,用于通过所述第一模型识别所述检验报告中的检验信息;第一调节单元,用于若所述检验信息与预设信息匹配,则增大所述检验报告对应的损失值,得到增大损失值;第二训练单元,用于基于所述增大损失值和所述负样本区域,对所述第一模型进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911260301.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top