[发明专利]识别模型构建方法及装置、字符识别方法及装置在审
| 申请号: | 201810763049.0 | 申请日: | 2018-07-12 |
| 公开(公告)号: | CN108932533A | 公开(公告)日: | 2018-12-04 |
| 发明(设计)人: | 闫博飞 | 申请(专利权)人: | 北京木瓜移动科技股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王术兰 |
| 地址: | 100000 北京市海淀区学*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 计算误差 模型构建 训练数据集 处理数据 训练数据 字符识别 图像 神经网络模型 输入神经网络 目标识别 图块 预存 剪裁 标注 重复 | ||
本发明实施例提供一种识别模型构建方法及装置、字符识别方法及装置,所述识别模型构建方法包括:a.获取训练数据集,所述训练数据集中包括多个图像,每个图像中包含待识别字符串图块;b.将所述训练数据集中的图像进行剪裁,得到处理数据集;c.将所述处理数据集输入神经网络模型中进行计算,得到计算结果,所述神经网络模型中包含待确定参数;d.将所述计算结果与预存的与所述训练数据集对应的标注结果进行对比得到计算误差;e.根据所述计算误差对所述待确定参数进行调整;重复步骤c‑e直到所述计算误差在限定范围内,得到目标识别模型。
技术领域
本发明涉及图像处理领域,具体而言,涉及一种识别模型构建方法及装置、字符识别方法及装置。
背景技术
网站为了防止非真实用户的恶意脚本的非法攻击,如robot频繁访问、暴力破解密码、刷票等,会在入口处设置验证码(CAPTCHA)识别程序对用户进行图灵测试。这在一定程度上可以确定来访者的真实性,从而确保网站的安全,也在一定程度上降低了用户体验。
为了增加识别的难度,现在有各式各样的验证码,如字母,图片等。本发明提到的验证码为英文字母和数字组合的验证码。与大多数的字符验证码的不同之处在于,验证码内字符个数不定,字符扭曲,粘连,如google。
对于一些没有恶意的爬虫或者脚本,验证码则是一道障碍,给进一步抓取数据带来了很多不方便。因此,网络上提供了很多方法与接口来识别验证码(antiCAPTCHA)。
发明内容
有鉴于此,本发明实施例的目的在于提供一种识别模型构建方法及装置、字符识别方法及装置。
第一方面,本发明实施例提供的一种识别模型构建方法,包括:
a.获取训练数据集,所述训练数据集中包括多个图像,每个图像中包含待识别字符串图块;
b.将所述训练数据集中的图像进行剪裁,得到处理数据集;
c.将所述处理数据集输入神经网络模型中进行计算,得到计算结果,所述神经网络模型中包含待确定参数;
d.将所述计算结果与预存的与所述训练数据集对应的标注结果进行对比得到计算误差;
e.根据所述计算误差对所述待确定参数进行调整;
重复步骤c-e直到所述计算误差在限定范围内,得到目标识别模型。
第二方面,本发明实施例还提供一种字符识别方法,使用上述的识别模型构建方法得到的识别模型识别字符串,所述方法包括:
将待识别图像进行剪裁,得到标准图像;
将所述标准图像输入所述识别模型进行计算,得到识别结果。
第三方面,本发明实施例还提供一种识别模型构建装置,包括:
获取模块,用于获取训练数据集,所述训练数据集中包括多个图像,每个图像中包含待识别字符串图块;
剪裁模块,用于将所述训练数据集中的图像进行剪裁,得到处理数据集;
训练模块,用于:
将所述处理数据集输入神经网络模型中进行计算,得到计算结果,所述神经网络模型中包含待确定参数;
将所述计算结果与预存的与所述训练数据集对应的标注结果进行对比得到计算误差;
根据所述计算误差对所述待确定参数进行调整;
重复上面过程直到所述计算误差在限定范围内,得到目标识别模型。
第四方面,本发明实施例还提供一种字符识别装置,用于使用上述的识别模型构建方法得到的识别模型识别字符串,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京木瓜移动科技股份有限公司,未经北京木瓜移动科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810763049.0/2.html,转载请声明来源钻瓜专利网。





