[发明专利]一种文本识别的方法、装置、设备以及存储介质在审
申请号: | 202110310267.0 | 申请日: | 2021-03-23 |
公开(公告)号: | CN112990035A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 陈禹燊;韩光耀;姜泽青 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F40/216;G06F40/242;G06F40/30 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王一;包莉莉 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 方法 装置 设备 以及 存储 介质 | ||
1.一种文本识别的方法,包括:
获取待识别对象的机器识别结果;
基于所述机器识别结果和所述待识别对象的语义特征,通过置信度生成模型,得到所述机器识别结果的置信度;
对所述机器识别结果的置信度和置信度阈值进行比较,确定所述待识别对象的最终识别结果,其中,所述置信度阈值为预先根据所述置信度生成模型所确定的。
2.根据权利要求1所述的方法,其中,预先根据置信度生成模型确定所述置信度阈值,包括:
将样本集输入至所述置信度生成模型得到置信度集合;
根据所述置信度集合与不同的候选阈值的比较结果,计算所述置信度集合在所述不同的候选阈值下的准确率和召回率;
基于所述准确率和所述召回率,从所述不同的候选阈值中确定出所述置信度阈值。
3.根据权利要求2所述的方法,其中,基于所述准确率和所述召回率,从所述不同的候选阈值中确定出所述置信度阈值,包括:
根据所述置信度集合在所述不同的候选阈值下对应的准确率,从所述不同的候选阈值中选取满足预定条件的候选阈值,作为参考阈值;
根据所述置信度集合在所述参考阈值下对应的召回率,从所述参考阈值中选取召回率最大的参考阈值,作为所述置信度阈值。
4.根据权利要求1所述的方法,其中,获取待识别对象的机器识别结果,包括:
利用光学字符识别技术处理所述待识别对象,得到所述待识别对象的多个字符特征;
对所述多个字符特征进行过滤处理,得到所述待识别对象的关键字符特征;
对所述关键字符特征进行特征提取处理,得到所述待识别对象的机器识别结果。
5.根据权利要求4所述的方法,所述机器识别结果包括清晰度特征、金额特征和用途特征中的至少一个,其中,对所述关键字符特征进行特征提取处理,得到所述机器识别结果,包括以下中的至少一项:
针对所述关键字符特征,提取位于所述待识别对象的预定位置处的关键字符特征并计算平均识别概率,构建清晰度特征;
针对所述关键字符特征,提取用于表征金额的关键字符特征,构建金额特征;
针对所述关键字符特征,提取用于表征用途的关键字符特征并生成用途字段,基于所述用途字段,构建用途特征。
6.根据权利要求5所述的方法,所述用途特征包括索引位置子特征和分类编码子特征,其中,构建用途特征,包括:
根据所述用途字段在关键词词典中对应的索引位置,构建所述索引位置子特征;
根据所述用途字段在分类库中对应的编码,构建所述分类编码子特征。
7.根据权利要求1所述的方法,其中,基于所述机器识别结果和所述待识别对象的语义特征,通过置信度生成模型,得到所述机器识别结果的置信度,包括:
提取所述待识别对象的语义特征;
基于所述语义特征和所述机器识别结果,通过训练好的置信度生成模型,得到所述机器识别结果的置信度。
8.根据权利要求1-7中任一项所述的方法,其中,对所述机器识别结果的置信度和置信度阈值进行比较,确定所述待识别对象的最终识别结果,包括:
在所述机器识别结果的置信度大于或等于所述置信度阈值的情况下,将所述机器识别结果确定为所述待识别对象的最终识别结果。
9.根据权利要求1-7中任一项所述的方法,其中,对所述机器识别结果的置信度和置信度阈值进行比较,确定所述待识别对象的最终识别结果,包括:
在所述机器识别结果的置信度小于所述置信度阈值的情况下,将所述待识别对象发送至识别终端;
将所述识别终端的识别结果确定为所述识别对象的最终识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110310267.0/1.html,转载请声明来源钻瓜专利网。