[发明专利]一种字符型验证码自动识别方法、终端设备及存储介质在审
申请号: | 202011468769.8 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112487398A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 赖清平;李火泉;徐晓文;栾江霞 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F21/36 | 分类号: | G06F21/36;G06F16/951;G06K9/20;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字符 验证 自动识别 方法 终端设备 存储 介质 | ||
本发明涉及一种字符型验证码自动识别方法、终端设备及存储介质,该方法中包括:S1:采集字符型验证码图片并对其进行标注后组成训练集;S2:构建卷积神经网络模型,通过训练集对卷积神经网络模型进行训练,使得训练后的最终模型的识别准确率大于准确率阈值;S3:当接收到字符型验证码图片时,将字符型验证码图片转换成二进制文件流后,输入最终模型进行识别,输出识别结果。本发明解决了在数据采集过程中目标网站有字符型图片验证码人机验证机制时,爬虫无法自动识别验证的问题,保障数据采集程序的高效性及稳定性,对数据采集程序的高效稳定采集能够起到重要作用。
技术领域
本发明涉及图像识别领域,尤其涉及一种字符型验证码自动识别方法、终端设备及存储介质。
背景技术
随着互联网反爬取技术的不断发展,人机校验成为数据采集领域的一个绕不过去的坎。一般情况下,数据采集方可以利用分布式数据采集系统以及代理IP在单位时间内对多个目标网站进行高并发的访问,来达到高效采集的目的。但是,当目标网站引入字符型图片验证码人机验证技术来反爬取时,数据采集程序便无法再自动获取到目标网站的内容。
在现有技术中,主要有三种方式可以绕过字符型图片验证码人机验证反爬的封禁:①控制请求目标资源的频率,限制同一IP在单位时间内对同一域名下URL的访问次数;②使用IP代理池,通过调用大量代理IP在不触发网站字符型图片验证码人机验证机制的情况下限制单IP在单位时间内对同一域名下URL的访问次数,模拟对目标网站的正常访问;③通过技术手段实现对字符型图片验证码的自动识别,从而实现目标数据源的自动获取。对于前两种方式虽然能有效地绕过验证,但是由于需要限制单位时间内的访问频率,且现有代理IP资源不足的情况下,是无法实现对有验证机制网站高效、快速并及时的采集;所以,通过技术手段实现对字符型图片验证码的自动识别再配合大量代理IP,即可模拟对该类型网站的正常人为访问,达到高效、快速并及时地采集目标数据的目的。
因此,在针对有字符型图片验证码反爬机制的网站爬取领域,亟需一种对技术领域专业性要求较低,且能够实现对字符型图片验证码的高命中率识别的技术,从而保证爬虫数据爬取的高效性、稳定性。
发明内容
为了解决上述问题,本发明提出了一种字符型验证码自动识别方法、终端设备及存储介质。
具体方案如下:
一种字符型验证码自动识别方法,包括以下步骤:
S1:采集字符型验证码图片并对其进行标注后组成训练集;
S2:构建卷积神经网络模型,通过训练集对卷积神经网络模型进行训练,使得训练后的最终模型的识别准确率大于准确率阈值;
S3:当接收到字符型验证码图片时,将字符型验证码图片转换成二进制文件流后,输入最终模型进行识别,输出识别结果。
进一步的,步骤S1中字符型验证码图片的采集包括以下步骤:
S111:采集字符型验证码图片并存储至待标注文件夹;
S112:对待标注文件夹中存储的所有字符型验证码图片的尺寸大小和完整性进行校验,将校验失败的图片从待标注文件夹内删除;
S113:对待标注文件夹中的所有图片进行二值化处理后,将图片的文件名命令为图片唯一标识码。
进一步的,步骤S1中标注的过程包括以下步骤:
S121:随机读取待标注文件夹下的一张图片并发送至显示页面进行显示;
S122:当接收到图片的标注信息后,判断中间标注结果文件夹内是否存在该图片,如果存在,进入S123;否则,将该图片存入中间标注结果文件夹内,并将接收到的标注信息和标注次数添加至该图片的文件名内,进入S125;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011468769.8/2.html,转载请声明来源钻瓜专利网。