[发明专利]基于正则匹配的文本识别方法、文本识别装置和电子设备在审
| 申请号: | 202011576184.8 | 申请日: | 2020-12-28 |
| 公开(公告)号: | CN112580345A | 公开(公告)日: | 2021-03-30 |
| 发明(设计)人: | 熊思宇;朱永强 | 申请(专利权)人: | 成都网安科技发展有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06K9/00 |
| 代理公司: | 成都极刻智慧知识产权代理事务所(普通合伙) 51310 | 代理人: | 唐维虎 |
| 地址: | 610000 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 正则 匹配 文本 识别 方法 装置 电子设备 | ||
1.一种基于正则匹配的文本识别方法,其特征在于,包括:
获取待识别文本,其中,该待识别文本包括至少一个待识别字符,且该待识别字符基于变长编码表示;
在所述至少一个待识别字符中确定一个目标待识别字符,并将该目标待识别字符转换为目标进制的目标数字;
基于预先得到的确定有限状态自动机对所述目标数字进行匹配处理,其中,该确定有限状态自动机基于对目标正则表达式进行处理得到,且该确定有限状态自动机中每一条转移边对应的字符基于所述目标进制表示;
若所述目标数字匹配失败,则停止对所述待识别文本进行匹配处理。
2.根据权利要求1所述的基于正则匹配的文本识别方法,其特征在于,所述待识别字符为多个,该方法还包括:
步骤a,若所述目标数字匹配成功,则在所述目标待识别字符以外的其他待识别字符中,确定一个新的目标待识别字符;
步骤b,将所述新的目标待识别字符转换为所述目标进制的新的目标数字,并基于所述确定有限状态自动机对该新的目标数字进行匹配处理;
步骤c,若所述新的目标数字匹配成功,则在该新的目标数字和所述目标待识别字符以外的其他待识别字符中,再次确定一个新的目标待识别字符,并基于该新的目标待识别字符再次执行步骤b;
步骤d,若所述新的目标数字匹配失败,则停止对所述待识别文本进行匹配处理。
3.根据权利要求1或2所述的基于正则匹配的文本识别方法,其特征在于,所述将该目标待识别字符转换为目标进制的目标数字的步骤,包括:
确定所述目标待识别字符的字节长度;
基于所述字节长度对应的转换规则,将所述目标待识别字符转换为目标进制的目标数字。
4.根据权利要求3所述的基于正则匹配的文本识别方法,其特征在于,所述确定所述目标待识别字符的字节长度的步骤,包括:
确定所述目标待识别字符对应的目标位是否为0,其中,该目标位为该目标待识别字符在内存中以二进制形式存储的第一个字节的最高位;
若所述目标位为0,则确定所述目标待识别字符的字节长度为1;
若所述目标位为1,则确定所述目标待识别字符的字节长度为该目标待识别字符的目标位数,其中,该目标位数为该目标待识别字符在内存中以二进制形式存储的多位二进制数据中连续为1的位数。
5.根据权利要求3所述的基于正则匹配的文本识别方法,其特征在于,所述基于所述字节长度对应的转换规则,将所述目标待识别字符转换为目标进制的目标数字的步骤,包括:
判断所述字节长度是否大于字节预设长度;
若所述字节长度小于或等于所述字节预设长度,则将所述目标待识别字符在内存中以二进制形式存储的第一个字节转换为目标进制,得到该目标待识别字符对应的目标数字;
若所述字节长度大于所述字节预设长度,则对所述目标待识别字符在内存中以二进制形式存储的每一个字节进行二进制数据删除处理,并将保留的二进制数据转换为目标进制,得到该目标待识别字符对应的目标数字。
6.根据权利要求5所述的基于正则匹配的文本识别方法,其特征在于,所述对所述目标待识别字符在内存中以二进制形式存储的每一个字节进行二进制数据删除处理的步骤,包括:
针对所述目标待识别字符在内存中以二进制形式存储的第一个字节,将该第一个字节中最高的目标长度位二进制数据删除,其中,该目标长度位等于所述字节长度加1;
针对所述目标待识别字符在内存中以二进制形式存储的第一个字节以外的每一个字节,将该字节中最高的2位二进制数据删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都网安科技发展有限公司,未经成都网安科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011576184.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:运动机器人视觉导航方法
- 下一篇:一种基于识别手写文字的智能学习方法及装置





