[发明专利]点选验证码识别方法、装置、计算机设备和存储介质在审
| 申请号: | 202010374481.8 | 申请日: | 2020-05-06 |
| 公开(公告)号: | CN111737548A | 公开(公告)日: | 2020-10-02 |
| 发明(设计)人: | 褚哲;王元 | 申请(专利权)人: | 苏宁金融科技(南京)有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F21/36;G06K9/00;G06F40/279;G06F40/30 |
| 代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 刘艳丽 |
| 地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 点选 验证 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种点选验证码识别方法,其特征在于,包括:
获取验证码图片;
通过文字识别模型对所述验证码图片进行文字识别,得到多个目标文字;
根据所述多个目标文字,确定所述多个目标文字的多个文字排序;
根据预设的语言统计模型对所述文字排序进行概率统计,得到各所述文字排序的概率值;
从各所述文字排序中筛选出概率值最大的文字排序,将筛选出的文字排序作为所述验证码图片的语义识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对语料库中每个文字进行频次统计以及对语料库中每连续出现的两个文字进行频次统计,得到第一频次统计结果;根据所述第一频次统计结果得到所述语言统计模型,优选的,将所述第一频次统计结果存储到本地数据,得到所述语言统计模型,
或者,
对语料库中每连续出现的两个文字进行频次统计以及对语料库中每连续出现的三个文字进行频次统计,得到第二频次统计结果;根据所述第二频次统计结果得到所述语言统计模型,优选的,将所述第二频次统计结果存储到本地数据,得到所述语言统计模型。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的语言统计模型对所述文字排序进行概率统计,得到各所述文字排序的概率值,包括:
将各所述文字排序分别进行分词处理,得到各所述文字排序的分词词组;
根据所述分词词组以及所述语言统计模型,确定各所述文字排序的所述分词词组的条件概率值;
分别求取各所述文字排序的所述分词词组的条件概率值乘积,得到所述文字排序的概率值,
优选的,所述将各所述文字排序分别进行分词处理,得到各所述文字排序的分词词组,包括:
若所述语言统计模型根据所述第一频次统计结果得到,则将各所述文字排序中的每两个连续文字作为一个分词词组,得到各所述文字排序的分词词组;
若所述语言统计模型根据所述第二频次统计结果得到,则将各所述文字排序中的每三个连续文字作为一个分词词组,得到各所述文字排序的分词词组。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过所述文字识别模型对所述验证码图片进行文字位置识别,得到所述多个目标文字的位置信息;
将所述验证码图片的所述语义识别结果以及所述多个目标文字的位置信息作为所述验证码图片的验证码识别结果。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述方法还包括:
通过模拟样本对初始YOLO模型进行预训练,得到预训练模型;
通过真实样本对所述预训练模型进行微调训练,得到所述文字识别模型,
优选的,在所述通过模拟样本对初始YOLO模型进行预训练,得到预训练模型之前,还包括:
获得文字库;
根据所述文字库得到所述初始YOLO模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取背景图片;
从所述文字库中选取样本字符;
将所述样本字符附在所述背景图片上,得到所述模拟样本。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
选择所述样本字符的调整方式,所述调整方式包括设定字体、缩小字符、放大字符、旋转字符、字符边缘模糊化中的一种或者多种;
根据所选择的调整方式,调整所述样本字符;
所述将所述样本字符附在所述背景图片上,得到所述模拟样本,包括:将调整后的所述样本字符附在所述背景图片上,得到所述模拟样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁金融科技(南京)有限公司,未经苏宁金融科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010374481.8/1.html,转载请声明来源钻瓜专利网。





