[发明专利]基于正则匹配的文本识别方法、文本识别装置和电子设备在审

专利信息
申请号: 202011576184.8 申请日: 2020-12-28
公开(公告)号: CN112580345A 公开(公告)日: 2021-03-30
发明(设计)人: 熊思宇;朱永强 申请(专利权)人: 成都网安科技发展有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/289;G06K9/00
代理公司: 成都极刻智慧知识产权代理事务所(普通合伙) 51310 代理人: 唐维虎
地址: 610000 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 正则 匹配 文本 识别 方法 装置 电子设备
【权利要求书】:

1.一种基于正则匹配的文本识别方法,其特征在于,包括:

获取待识别文本,其中,该待识别文本包括至少一个待识别字符,且该待识别字符基于变长编码表示;

在所述至少一个待识别字符中确定一个目标待识别字符,并将该目标待识别字符转换为目标进制的目标数字;

基于预先得到的确定有限状态自动机对所述目标数字进行匹配处理,其中,该确定有限状态自动机基于对目标正则表达式进行处理得到,且该确定有限状态自动机中每一条转移边对应的字符基于所述目标进制表示;

若所述目标数字匹配失败,则停止对所述待识别文本进行匹配处理。

2.根据权利要求1所述的基于正则匹配的文本识别方法,其特征在于,所述待识别字符为多个,该方法还包括:

步骤a,若所述目标数字匹配成功,则在所述目标待识别字符以外的其他待识别字符中,确定一个新的目标待识别字符;

步骤b,将所述新的目标待识别字符转换为所述目标进制的新的目标数字,并基于所述确定有限状态自动机对该新的目标数字进行匹配处理;

步骤c,若所述新的目标数字匹配成功,则在该新的目标数字和所述目标待识别字符以外的其他待识别字符中,再次确定一个新的目标待识别字符,并基于该新的目标待识别字符再次执行步骤b;

步骤d,若所述新的目标数字匹配失败,则停止对所述待识别文本进行匹配处理。

3.根据权利要求1或2所述的基于正则匹配的文本识别方法,其特征在于,所述将该目标待识别字符转换为目标进制的目标数字的步骤,包括:

确定所述目标待识别字符的字节长度;

基于所述字节长度对应的转换规则,将所述目标待识别字符转换为目标进制的目标数字。

4.根据权利要求3所述的基于正则匹配的文本识别方法,其特征在于,所述确定所述目标待识别字符的字节长度的步骤,包括:

确定所述目标待识别字符对应的目标位是否为0,其中,该目标位为该目标待识别字符在内存中以二进制形式存储的第一个字节的最高位;

若所述目标位为0,则确定所述目标待识别字符的字节长度为1;

若所述目标位为1,则确定所述目标待识别字符的字节长度为该目标待识别字符的目标位数,其中,该目标位数为该目标待识别字符在内存中以二进制形式存储的多位二进制数据中连续为1的位数。

5.根据权利要求3所述的基于正则匹配的文本识别方法,其特征在于,所述基于所述字节长度对应的转换规则,将所述目标待识别字符转换为目标进制的目标数字的步骤,包括:

判断所述字节长度是否大于字节预设长度;

若所述字节长度小于或等于所述字节预设长度,则将所述目标待识别字符在内存中以二进制形式存储的第一个字节转换为目标进制,得到该目标待识别字符对应的目标数字;

若所述字节长度大于所述字节预设长度,则对所述目标待识别字符在内存中以二进制形式存储的每一个字节进行二进制数据删除处理,并将保留的二进制数据转换为目标进制,得到该目标待识别字符对应的目标数字。

6.根据权利要求5所述的基于正则匹配的文本识别方法,其特征在于,所述对所述目标待识别字符在内存中以二进制形式存储的每一个字节进行二进制数据删除处理的步骤,包括:

针对所述目标待识别字符在内存中以二进制形式存储的第一个字节,将该第一个字节中最高的目标长度位二进制数据删除,其中,该目标长度位等于所述字节长度加1;

针对所述目标待识别字符在内存中以二进制形式存储的第一个字节以外的每一个字节,将该字节中最高的2位二进制数据删除。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都网安科技发展有限公司,未经成都网安科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011576184.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top