[发明专利]一种针对盲人辅助阅读的文本检测与识别方法有效
申请号: | 201910501311.9 | 申请日: | 2019-06-11 |
公开(公告)号: | CN110458158B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 毋超;郭璠;刘丽珏;马润洲;何汉东;刘嘉熙;康天硕 | 申请(专利权)人: | 中南大学 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/25;G06V30/148;G06V10/762;G06V30/19;G06V10/75;G06V10/30;G06V10/28;G06K9/62;G09B21/00 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 杨萍 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 盲人 辅助 阅读 文本 检测 识别 方法 | ||
1.一种针对盲人辅助阅读的文本检测与识别方法,其特征在于,包括以下步骤:
步骤1:对于相机拍摄的图像序列,判断当前图像中的场景是否为手指放在阅读文本上,若是则进行步骤2,否则跳过该帧当前图像,将下一帧图像作为当前图像,进行上述判断和处理;
步骤2:在当前图像中定位用户指尖;
步骤3:根据用户指尖的位置,确定用户指示的文本行;
步骤4:提取用户指示的文本行上的单词,将其转换为语音输出;
所述步骤2包括以下步骤:
步骤21、使用K-means找到用户指尖的候选区域;
首先,使用高斯滤波器对当前图像进行滤波;
然后,根据滤波后的图像中三个通道的图像生成三个二维矩阵,每个二维矩阵中的元素值为相应通道的图像上相应点的像素值;
对每个二维矩阵,将其所有列求和再取平均值,得到一个row×1的列向量mc_ave;将其所有行求和再取平均值,得到一个1×col的行向量mr_ave;由此,把当前图像转化成三个列向量和三个的行向量,其中col表示二维矩阵的总列数,row表示二维矩阵的总行数;
将列向量的每个维度作为一个纵向数据点,把三个列向量相同维度的分量作为相应的纵向数据点的三个特征,构成该纵向数据点的特征向量,纵向数据点的个数等于列向量的维度,即row;将行向量的每个维度作为一个横向数据点,把三个行向量相同维度的分量作为相应的横向数据点的三个特征,构成该横向数据点的特征向量,横向数据点的个数等于行向量的维度,即col;
其次,使用K-means分别对纵向数据点和横向数据点进行聚类,聚类数目均为2;
再次,将纵向数据点的聚类的结果表示为一个纵向标签向量,其为一个row×1的列向量,其各维度的分量表示为相应维度的纵向数据点的标签,取值为0或1;将横向数据点的聚类的结果表示为一个横向标签向量,其为一个1×col的行向量,其各维度的分量表示为相应维度的横向数据点的标签,取值为0或1;
分别对纵向标签向量和横向标签向量先进行均值滤波,再进行阈值处理,若某维度元素值大于或等于设定阈值,则将其设置为1,否则将其设置0,得到最终的纵向标签向量和横向标签向量;
将纵向标签向量中元素值0和1的分界点在当前图像中的对应的水平线与横向标签向量中元素值0和1的左侧分界点在当前图像中的对应的竖直线的交点为左上顶点,划定一个矩形区域作为用户指尖的候选区域;
步骤22、通过计算曲率定位指尖;
首先,采用canny算子求取用户指尖的候选区域中的边缘,连接边缘得到轮廓;若得到多个轮廓,则只保留包含像素点个数不小于设定阈值的轮廓;
然后,对保留下来的轮廓进行平滑处理;
最后,对平滑处理后的轮廓,计算轮廓上每个像素点的曲率,曲率为零的点即为用户指尖位置。
2.根据权利要求1所述的针对盲人辅助阅读的文本检测与识别方法,其特征在于,所述步骤1中判断当前图像中的场景是否为手指放在阅读文本上的方法如下:
步骤11、通过相机预先拍摄一些典型的包含用户手指及其所在的文本区域的图像,保存于数据库中;
步骤12、将当前图像以及在该图像前面拍摄的多张图像作为样本图像;
步骤13、对数据库中的图像和样本图像的RGB色彩空间分别进行归一化处理;
步骤14、对于每个样本,分别计算其归一化处理后的红色通道图像与数据库中各张图像归一化处理后的红色通道图像的欧式距离,将结果中的最小值作为该样本的匹配分数;求取所有样本匹配分数的均值μIm与方差σIm,若μIm+σImTh,则认定当前图像中的场景为手指放在阅读文本上,其中Th为阈值,为经验参数。
3.根据权利要求2所述的针对盲人辅助阅读的文本检测与识别方法,其特征在于,所述步骤14中,将所有图像都缩小到设定尺寸,再计算欧式距离。
4.根据权利要求1所述的针对盲人辅助阅读的文本检测与识别方法,其特征在于,使用K-means对纵向数据点/横向数据点进行聚类的过程中,随机初始化两组聚类中心,进行两次聚类,评估两次聚类结果的紧凑度,选取紧凑度好的聚类结果作为最终的聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910501311.9/1.html,转载请声明来源钻瓜专利网。