[发明专利]异常字符串识别方法及装置有效
| 申请号: | 202110753494.0 | 申请日: | 2021-07-02 |
| 公开(公告)号: | CN113420549B | 公开(公告)日: | 2023-06-13 |
| 发明(设计)人: | 黄飚;吴鹏;吕明钊;赵耿榕;吴双 | 申请(专利权)人: | 珠海金山数字网络科技有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/335;G06F16/903 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
| 地址: | 519000 广东省珠海市高新区唐家湾镇前岛环路325号102室*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 异常 字符串 识别 方法 装置 | ||
1.一种异常字符串识别方法,其特征在于,包括:
获取待识别文本,并利用预设的过滤算法,从所述待识别文本中过滤出具有指定格式的关键字符串;
基于特殊字符识别算法,从所述关键字符串中提取待处理字符串,并确定所述待处理字符串对应的属性信息;
基于所述属性信息和异常字符识别规则,对所述待处理字符串进行识别,确定所述待处理字符串是否为异常字符串,其中,所述异常字符识别规则包括多个子规则,所述子规则包括字符串的排列方式符合预设排列方式,所述预设排列方式与属性信息对应,或者,所述子规则包括字符串中特定位置的字符是特定字符,所述特定字符与属性信息对应;
其中,所述关键字符串包括多个字符;基于特殊字符识别算法,从所述关键字符串中提取待处理字符串,并确定所述待处理字符串对应的属性信息,包括:
识别所述关键字符串中每个字符的类型,并统计各类型字符的数量;
若所述关键字符串中特定类型字符的数量达到所述特定类型对应的预设数目,则将所述特定类型字符组成的字符串确定为待处理字符串,其中,所述特定类型字符包括数字、字母或特殊符号;
确定所述特定类型字符的属性信息作为所述待处理字符串对应的属性信息。
2.如权利要求1所述的异常字符串识别方法,其特征在于,基于特殊字符识别算法,从所述关键字符串中提取待处理字符串,并确定所述待处理字符串对应的属性信息,包括:
将所述关键字符串中的字符与预设特殊字符词表中的特殊字符进行比对;
若所述关键字符串中存在所述预设特殊字符词表中的特殊字符,确定所述特殊字符在所述关键字符串中的位置信息;
基于所述特殊字符和所述特殊字符的位置信息,从所述关键字符串中提取与所述特殊字符相关的待处理字符串;
确定所述特殊字符的属性信息作为所述待处理字符串对应的属性信息。
3.如权利要求1或2所述的异常字符串识别方法,其特征在于,基于特殊字符识别算法,从所述关键字符串中提取待处理字符串之前,还包括:
将所述关键字符串与预设白名单中的白名单字符串进行比对,并删除所述关键字符串中与所述白名单字符串相同的字符串;
相应地,基于特殊字符识别算法,从所述关键字符串中提取待处理字符串,包括:
基于所述特殊字符识别算法,从删除所述白名单字符串之后的关键字符串中提取待处理字符串。
4.如权利要求1所述的异常字符串识别方法,其特征在于,所述异常字符识别规则包括多个子规则,各子规则分别表征具有一种属性信息的字符串中的字符格式;基于所述属性信息和异常字符识别规则,对所述待处理字符串进行识别,确定所述待处理字符串是否为异常字符串,包括:
基于所述待处理字符串对应的属性信息,从所述多个子规则中确定与所述属性信息对应的待匹配子规则;
将所述待处理字符串与所述待匹配子规则进行匹配;
若所述待处理字符串与所述待匹配子规则匹配成功,确定所述待处理字符串是异常字符串。
5.如权利要求4所述的异常字符串识别方法,其特征在于,将所述待处理字符串与所述待匹配子规则进行匹配之后,还包括:
若所述待处理字符串与所述待匹配子规则匹配失败,将所述待处理字符串与所述多个子规则中除所述待匹配子规则之外的其他子规则进行匹配;
若所述其他子规则中存在与所述待处理字符串匹配成功的子规则,确定所述待处理字符串是异常字符串;
若所述其他子规则中不存在与所述待处理字符串匹配成功的子规则,确定所述待处理字符串不是异常字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山数字网络科技有限公司,未经珠海金山数字网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110753494.0/1.html,转载请声明来源钻瓜专利网。





