[发明专利]基于字符切分和颜色聚类的数字视频中的字符提取方法无效
申请号: | 200910081927.1 | 申请日: | 2009-04-08 |
公开(公告)号: | CN101515325A | 公开(公告)日: | 2009-08-26 |
发明(设计)人: | 黄晓冬;马华东;张赫 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 夏宪富 |
地址: | 100876*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 字符 切分 颜色 数字视频 中的 提取 方法 | ||
1.一种基于字符切分和颜色聚类的数字视频中的字符提取方法,其特征在 于,包括下列操作步骤:
(1)字符切分:先将字符区域的三通道彩色图像转换为单通道灰度图像, 再采用基于垂直投影特征的分析切分方法,即利用字符区域与字符间隔区域的 特征差异,按照Sobel算子中计算垂直方向的微分的计算模板,分别计算所述 单通道灰度图像中的每个像素的纵向梯度值,对该梯度值取绝对值并进行纵向 相加后,得到其纵向梯度值之和的梯度值数组,用于反映图像垂直方向的梯度 特性,并用作字符切分的依据;然后用近邻平均方法平滑该梯度值数组:选取 某个位置左右两边的梯度值与该位置的梯度值的平均值,用作该位置的新的梯 度值和计算用于全面表征垂直投影特征的峰谷差比;最后根据峰谷差比进行垂 直投影来切分字符区域图像,将每一行包含多个字符的区域图像,切分成只包 含单个字符的若干个子区域图像;
(2)字符提取:先通过扩展图像、对图像插值放大和图像增强的预处理, 再用设置聚类个数为4的K-Means算法对图像中的颜色特征进行颜色聚类,然 后判别聚类结果和分析连通区域,从4个备选图像找到包含最多字符信息的图 像作为目标图像,从而快速删除大部分背景区域信息;再对目标图像进行连通 特征分析,采用由外向内填充和对字符图像进行去噪处理,继续去除剩余的非 字符区域后,分别得到三种类型的字符图像:单个字符提取图像、字符区域的 整体提取图像和由单个字符提取图像拼接成的整体拼接图像,一起输入给光学 字符识别OCR系统进行识别;其中后两种图像是用OCR的语义处理功能,根 据上下文更准确地确定形近字而提高识别效果。
2.根据权利要求1所述的方法,其特征在于:所述特征差异是指:字符区 域的特点是它的空间频率变化强烈,而字符间隔区域的空间频率变化相对较小; 对应到梯度上,则是字符区域的梯度较大,而字符间隔的梯度较小。
3.根据权利要求1所述的方法,其特征在于:所述字符切分是依据最有用 的纵向梯度信息进行切分,且对字符区域图像采用的梯度计算模板是Sobel算 子中计算垂直方向的微分的计算模板:
所述基于垂直投影特征的分析切分方法的依据是视频中字符通常呈水平排 列,故对于根据上述计算模板对字符区域图像中的像素进行计算得到的梯度值 的绝对值,进行垂直方向上的投影,以便考察感兴趣的区域并进行字符切分; 因字符区域对应的梯度值大于字符间隔区域的梯度值,故在字符切分中,用纵 向梯度投影作为切分的依据,再通过各种启发式规则来最终确定切分线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910081927.1/1.html,转载请声明来源钻瓜专利网。