[发明专利]一种基于人工智能的单手手指点读文字识别方法和系统在审
| 申请号: | 201910837914.6 | 申请日: | 2019-09-05 |
| 公开(公告)号: | CN110443231A | 公开(公告)日: | 2019-11-12 |
| 发明(设计)人: | 陈大凯;宋伟;刘光磊;尹正杰 | 申请(专利权)人: | 湖南神通智能股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/62;G06K9/46;G06T7/70;G06N3/04;G09B5/06 |
| 代理公司: | 长沙市和协专利代理事务所(普通合伙) 43115 | 代理人: | 王培苓 |
| 地址: | 410000 湖南省长沙市*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 指尖 文字识别 人工智能 单手手指 矩形区域 神经网络 手指特征 文字中心 点坐标 坐标点 距离进行比较 输出文字信息 图像 摄像头采集 精准定位 市场推广 视觉算法 输入定位 文字信息 硬件方面 语音朗读 截取 智能 网络 | ||
1.一种基于人工智能的单手手指点读文字识别方法,其特征在于,包括以下步骤:
(1)通过摄像头实时采集手指图文图像;
(2)对摄像头采集的单帧高清晰图像进行图像预处理;
(3)使用预先训练好的手指特征识别神经网络,在预处理的图像中对手指特征区域进行定位并获得手指指尖坐标;截取手指指尖点坐标前方的区域输出给文字识别库;
(4)文字识别库对矩形区域中的文字进行识别,并且得到文字中心坐标点;
(5)对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息;
(6)对文字信息进行语音朗读。
2.根据权利要求1所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述步骤(3)进一步包括在预处理的图像中对手指特征区域进行定位获得初步手指指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
3.根据权利要求1所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述步骤(2)中图像处理采用OpenCV算法库对图像进行处理,包括以下步骤:
S1、对图像进行开运算;
S2、对图像进行双边滤波,保存边缘图像特征;
S3、使用图像金字塔进行向下采样。
4.根据权利要求3所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述手指特征识别神经网络的训练包括以下步骤:
S1、通过拍照获取大量训练数据,通过图像定位技术获取得到手指区域,人工标记手指指尖点所在的坐标点为关键点;
S2、人工标记手指关键点所在位置的笛卡尔坐标,并根据图像的原始长宽进行归一化存储,即在一个长宽为(w,h)的矩形图像,手指关键点坐标为(a,b),则归一化坐标为(a/w,b/h);
S3、搭建一个深度卷积神经网络,包括卷积层、池化层、全卷积层,使得网络输入为三通道RGB图像,输出为二维坐标(x,y);
S4、利用该卷积神经网络求解点坐标回归问题,通过损失函数求解其梯度,可求得反向传播的残差;
S5、通过步骤S1大量标记的样本训练该深度卷积神经网络的权重参数,在该卷积神经网络经过一定迭代到达稳定后,可以获得多层的卷积核参数。
5.根据权利要求4所述的基于人工智能的单手手指点读文字识别系统,其特征在于,对所述手指特征点卷积神经网络进行测试,包括以下步骤:
S1、将步骤(2)处理后的图像输入到训练好的卷积神经网络;
S2、通过网格计算获得预测的手指特征的关键点;
S3、进行一次前向传播;
S4、输入预测好的手指特征的关键点,去归一化得到输出初步手指指尖坐标。
S5、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
6.根据权利要求1所述的基于人工智能的单手手指点读文字识别系统,其特征在于,所述文字识别库为采用OCR文字识别库tesseract-ocr来进行文字识别。
7.一种基于人工智能的单手手指点读文字识别的系统,其特征在于,包括摄像头、图像处理模块、手指识别模块、文字识别模块、中央处理模块以及语音模块,所述摄像头与图像处理模块连接,图像处理模块与手指识别模块连接,手指识别模块、文字识别模块、语音模块与中央处理模块连接;
所述摄像头用于实施摄取手指图文图像;
所述图像处理模块用于对所述图像进行处理;
所述手指识别模块对处理的图像进行识别,并定位出手指初步指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标;最后截取精准的手指指尖点坐标前方的矩形区域输出给文字识别模块;
所述文字识别模块识别矩形区域内的文字,并且得到文字中心坐标点;
所述中央处理模块对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息,将文字信息和播放文字信息的指令传输给语音模块进行语音播报。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南神通智能股份有限公司,未经湖南神通智能股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910837914.6/1.html,转载请声明来源钻瓜专利网。





