[发明专利]识别模型构建方法及装置、字符识别方法及装置在审

申请号：	201810763049.0	申请日：	2018-07-12
公开（公告）号：	CN108932533A	公开（公告）日：	2018-12-04
发明（设计）人：	闫博飞	申请（专利权）人：	北京木瓜移动科技股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	王术兰
地址：	100000 北京市海淀区学***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	计算误差模型构建训练数据集处理数据训练数据字符识别图像神经网络模型输入神经网络目标识别图块预存剪裁标注重复
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种识别模型构建方法及装置、字符识别方法及装置，所述识别模型构建方法包括：a.获取训练数据集，所述训练数据集中包括多个图像，每个图像中包含待识别字符串图块；b.将所述训练数据集中的图像进行剪裁，得到处理数据集；c.将所述处理数据集输入神经网络模型中进行计算，得到计算结果，所述神经网络模型中包含待确定参数；d.将所述计算结果与预存的与所述训练数据集对应的标注结果进行对比得到计算误差；e.根据所述计算误差对所述待确定参数进行调整；重复步骤c‑e直到所述计算误差在限定范围内，得到目标识别模型。

技术领域

本发明涉及图像处理领域，具体而言，涉及一种识别模型构建方法及装置、字符识别方法及装置。

背景技术

网站为了防止非真实用户的恶意脚本的非法攻击，如robot频繁访问、暴力破解密码、刷票等，会在入口处设置验证码(CAPTCHA)识别程序对用户进行图灵测试。这在一定程度上可以确定来访者的真实性，从而确保网站的安全，也在一定程度上降低了用户体验。

为了增加识别的难度，现在有各式各样的验证码，如字母，图片等。本发明提到的验证码为英文字母和数字组合的验证码。与大多数的字符验证码的不同之处在于，验证码内字符个数不定，字符扭曲，粘连，如google。

对于一些没有恶意的爬虫或者脚本，验证码则是一道障碍，给进一步抓取数据带来了很多不方便。因此，网络上提供了很多方法与接口来识别验证码(antiCAPTCHA)。

发明内容

有鉴于此，本发明实施例的目的在于提供一种识别模型构建方法及装置、字符识别方法及装置。

第一方面，本发明实施例提供的一种识别模型构建方法，包括：

a.获取训练数据集，所述训练数据集中包括多个图像，每个图像中包含待识别字符串图块；

b.将所述训练数据集中的图像进行剪裁，得到处理数据集；

c.将所述处理数据集输入神经网络模型中进行计算，得到计算结果，所述神经网络模型中包含待确定参数；