[发明专利]语文作业题目文字识别方法、搜索方法、服务器及系统在审
申请号: | 202010762664.7 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111860443A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王鑫琛;姚璐 | 申请(专利权)人: | 上海掌学教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06F16/583;G06F16/33;G06F16/903 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 向霞 |
地址: | 201901 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语文 作业 题目 文字 识别 方法 搜索 服务器 系统 | ||
本发明实施例公开了一种语文作业题目文字识别方法、搜索方法、服务器及系统,方法包括:图像输入、文字行检测、图片预处理、文字识别及行文字结果整合。采用深度神经网络模型进行文字行检测和文字识别,可快速准确地识别出题目文本内容,进一步地采用分布式搜索技术和文本相似度技术,可实时、快速、准确地识别出客户端提供的语文作业图片对应的题目,提高了语文作业题目查询或批改等行为的效率,并且不需要人工筛选,节省了人力物力。当其用于在线教育辅导时,可有效的降低在线教育辅导机构的运营成本。
技术领域
本发明涉及图像识别技术领域,具体涉及一种语文作业题目文字识别方法、搜索方法、服务器及系统。
背景技术
在在线教育领域中,对于学生语文作业的批改和答疑,经常需要根据学生上传的作业图像内容进行人工判断,如检查图片中的答案是否正确,查看题目答案的详细解析等。但是仅依靠人工去判断的方法不仅花费大量的人力和时间成本,而且有时辅导老师会遇到一些还不知道答案题目,就需要人工再解答后才能最终确认答案,大大增加了在线教育辅导机构的运营成本。
发明内容
针对现有技术中的技术缺陷,本发明实施例的目的在于提供一种语文作业题目文字识别方法、搜索方法、服务器及系统。
为实现上述目的,第一方面,本发明实施例提供了一种语文作业题目文字识别方法,包括:
图像输入步骤:输入待处理的语文作业图片;
文字行检测步骤:采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理步骤:将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
文字识别步骤:采用第二神经网络模型对所述灰度图像进行每一行的文字识别,得到每一行的文字内容;
行文字结果整合步骤:针对识别出的每一行的文字内容,根据行的位置关系进行文本整合,得到题目文本内容。
在本申请某些具体实施方式中,所述第一神经网络模型的具体实现为:
在VGG-16网络的最后一个卷积层后增加一层Bi-LSTM层,最后的网络全连接层中分别采用Softmax和逻辑回归作为网络最后的损失函数;
模型中采用极大值抑制算法筛选出最佳的文字行区域;
指定迭代次数为40epoch;
模型停止训练后,根据每次epoch的计算结果筛选出最佳权重参数,并保存所述最佳权重参数。
在本申请某些具体实施方式中,所述第二神经网络模型的具体实现为:
在深度残差网络模型的最后的网络全连接层中采用CTC作为网络训练过程中的损失函数;
指定迭代次数为20epoch;
模型停止训练后,根据每次epoch的计算结果筛选出最佳权重参数,并保存所述最佳权重参数。
第二方面,本发明实施例提供了一种语文作业题目文字识别装置,包括:
图片输入单元,用于输入待处理的语文作业图片;
文字行检测单元,用于采用第一神经网络模型对待处理的语文作业图片进行文字行检测,得到待处理的语文作业图片中的每行文字图像的坐标位置;
图片预处理单元,用于将经过文字行检测的待处理语文作业图片作为第一图片,所述第一图片中包含文字行区域,对所述第一图片进行图像尺寸归一化和灰度化处理,得到灰度图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海掌学教育科技有限公司,未经上海掌学教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010762664.7/2.html,转载请声明来源钻瓜专利网。