[发明专利]基于字符切分和颜色聚类的数字视频中的字符提取方法无效
申请号: | 200910081927.1 | 申请日: | 2009-04-08 |
公开(公告)号: | CN101515325A | 公开(公告)日: | 2009-08-26 |
发明(设计)人: | 黄晓冬;马华东;张赫 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 夏宪富 |
地址: | 100876*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 字符 切分 颜色 数字视频 中的 提取 方法 | ||
技术领域
本发明涉及一种数字图像处理方法,确切地说,涉及一种基于字符切分和 颜色聚类的数字视频中的字符提取方法,属于图像处理技术领域。
背景技术
数字视频中的字符信息是理解视频内容高层语义的重要线索,有效地提取 这些字符对内容理解以及基于内容的多媒体信息检索系统来说是一项重要的技 术。目前,光学字符识别(OCR)技术对于二值图像中的字符识别已经趋于成 熟,并进入了商业应用。现在,许多不同来源的字符都是通过OCR系统识别的。 因此,如何使得输入的字符图像能够符合OCR的识别要求,已经成为一项公认 的必须达到的目标。当前,OCR系统面向的大都是由扫描仪扫描出来的文件图 像,要求图像中的字符清晰、背景单一、分辨率高,并且,多数OCR都要求以 二值化图像作为输入。
但是,因为视频中的字符的噪声干扰通常比较严重,且背景复杂,字符模 糊,字符与背景的对比度不能得到保证,故分辨率比较低。因此,如何对视频 中的字符实现有效提取就具有很大的挑战性,这也限制了OCR技术在视频检索 中的成功应用。作为视频检索中关键步骤的字符提取,其目标就是把含有字符 区域的复杂图像,转化成能够为OCR所识别的清晰的二值化图像。
目前,国内外的研究人员在字符提取技术方面研制了很多方法。现有的提 取方法可分为:基于颜色阈值的方法、基于连通区域分析的方法、基于颜色模 型的方法和聚类法等等。其中:
基于颜色阈值的方法是假定图像中文字的亮度总是比背景高或者比背景 低,再通过估计背景颜色和前景颜色的阈值来实现分割的目的。文字的阈值又 分为两种:全局阈值和局部阈值,全局阈值是整个图像都使用的一个阈值;局 部阈值是根据图像的具体区域来确定的阈值,与全局阈值相比,后者优点是能 处理亮度和对比度发生变化的图像。基于颜色阈值的方法最早来源于文档图像 分析,在处理背景简单的文档图像时,该方法简单、实用而有效,但是当背景 复杂起来时,由于图像中的文字颜色和背景颜色之间不存在简单的阈值,因而 这种简单的方法就无能为力了。
基于连通分量分析的方法是利用文字笔画具有连通性的特征,这种方法是 先将输入的图片分割成一系列的连通分量,然后通过自底向上的方法分析和确 定每个分量属于前景还是背景,最后将所有前景分量组合成分割结果。由于该 方法对文字的笔画是作为整体进行处理的,因此,分割结果的笔画的连贯性比 较好,易于被OCR软件所识别;但是,该算法复杂度高,系统效率低。
基于颜色模型的方法是先通过机器学习的方法为文字像素建立一个颜色模 型,然后利用该模型计算图片中每一个像素属于文字像素的概率,超过某个概 率阈值的像素被标记为文字像素。由于基于颜色模型的方法考虑了文字颜色的 多峰值分布,因而能够处理比较复杂的背景,但是对不同的图像,其文字的颜 色模型往往差别很大,为多种不同的图像分别建立不同的模型很不容易,有时 候甚至是不可能的。
聚类法是假定文字块中所有像素都能根据颜色分为K类,文字像素对应于 其中一类,运用经典的聚类算法K-means对所有像素进行聚类。类似的聚类方 法还有基于颜色相似性度量的颜色削减算法等,所不同的是K-means算法需要 给定类的个数K,后者是根据颜色相似性度量自动生成类的个数。这类方法可 以用于复杂背景的情形,但是当背景中含有与文字颜色相同或相近的成分时, 这些成分会被误分入文字类,从而产生大量的残余背景,影响OCR识别。
总之,相应的几种字符提取技术在许多方面都有不尽人意之处,因此,如 何研制一种较好的用于视频图像中的字符提取方法,就成为业内科技人员关注 的新课题。
发明内容
有鉴于此,本发明的目的是提供一种基于字符切分和颜色聚类的数字视频 中的字符提取方法,该方法能够较好地解决现有技术存在的缺陷,使得原来复 杂而不能被OCR识别的图像中的字符,变成清晰的、二值化的、可供OCR识 别的字符图像。
为了达到上述目的,本发明提供了一种基于字符切分和颜色聚类的数字视 频中的字符提取方法,其特征在于,包括下列操作步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910081927.1/2.html,转载请声明来源钻瓜专利网。