[发明专利]文档扫描器在审
申请号: | 201680022039.0 | 申请日: | 2016-03-30 |
公开(公告)号: | CN107980139A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 克里希讷杜·乔杜里;陈璐;戴维·彼得鲁;布勒斯·阿格拉-阿尔卡斯 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06K9/46;G06K9/62;G06T3/40 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 李佳,穆德骏 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 扫描器 | ||
背景技术
本说明书涉及图像处理。
常规全景拼接是一种用于将具有重叠视场的多个摄影图像进行组合来产生分段式全景或者高分辨率图像的技术。例如,卫星图像和数字地图的高分辨率拼嵌图(mosaic)使用全景拼接。其它现有的应用——例如,医学成像和图像稳定——也应用全景拼接技术。捕获具有不同取向、角度、视角、和深度的图像通常会使最终拼接的图像失真。
发明内容
大体而言,本文描述的主题的一个方面可以以一种技术来实施,该技术包括:接收扫描请求,其中,该扫描请求包括多个文本图像,每个文本图像表示文本文档的一部分,其中,该多个文本图像包括至少部分地重叠的第一文本图像和第二文本图像;对于多个文本图像中的每个文本图像:校正文本图像来生成具有平行图像线的文本图像,生成围住该文本图像中的一个或者多个连接组件的多个词语边界框,其中,每个词语边界框与相应的词语相关联,以及,对于文本图像中的每个相应的词语,生成表示该相应的词语的多个点;将多个文本图像进行组合来形成单个文本文档,包括:通过匹配与第一文本图像相关联的第一点集和与第二文本图像相关联的第二点集来将多个文本图像中的第一文本图像和多个文本图像中的第二文本图像进行组合;以及,提供所组合的图像作为可扫描文档。
校正多个文本图像中的每个文本图像可以包括:确定文本图像中的多个连接组件,每个连接组件是符号的填充部分,基于多个连接组件来生成在文本图像中的包括垂直线元(linelet)和水平线元的多个图像线,基于多个图像线来计算水平消失点和垂直消失点,以及将几何公式应用于第一消失点和第二消失点来恢复在文本图像中的平行线。
多个图像线可以包括多个垂直线元和多个水平线元。每个垂直线元是穿过连接组件的竖直部分的骨架线,并且每个水平线元是穿过相邻的连接组件集的中心的回归线。
基于多个图像线来计算水平消失点和垂直消失点进一步包括:使用水平线元来计算水平消失点,以及使用垂直线元来计算垂直消失点。
该方法可以进一步包括选择垂直线元对和水平线元对,使用所选择的水平线元对来计算水平消失点、并且通过使用所选择的垂直线元对来计算垂直消失点。
选择一对水平或者垂直线元可以包括基于线段长度来执行多个水平线元或者垂直线元的降序排序,以及从多个排序的线元的前20个百分位选择第一线元并且从多个排序的线元的前50个百分位选择第二线元。
生成多个词语边界框可以包括:涂抹连接组件中具有低于预定阈值的空白量的相邻的连接组件。
第一点集和第二点集可以是词语形状描述符。该方法可以进一步包括计算多个词语边界框中的每个词语边界框的词语形状描述符。
计算词语边界框的词语形状描述符可以包括:将该词语边界框平铺到固定单元格网格中,以及对词语边界框执行方向梯度直方图来生成与词语边界框相关联的词语的形状的向量描述符。
将第一文本图像和第二文本图像进行组合可以包括将第一文本图像与第二文本图像融合。
在与第一文本图像相关联的第一点集和与第二文本图像相关联的第二点集之间的匹配点的数目可以超出匹配点的阈值数目。
组合多个文本图像可以进一步包括融合形成单个文本文档的多个文本图像,对单个文本文档进行纠偏,以及对单个文本文档执行光学字符识别。本方面的其它实施例包括对应的系统、装置、和编码在计算机存储设备上的计算机程序,均配置为执行方法的动作。一个或者多个计算机的系统可以配置为:依靠在该系统上安装在操作时使得该系统执行动作的软件、固件、硬件、或者它们的组合来执行特定动作。一个或者多个计算机程序可以配置为依靠包括指令来执行特定动作,该指令在由数据处理装置执行时使该装置执行该动作。
可以将在本说明书中描述的主题实施在特定实施例中,从而实现一个或者多个下面的优点。用户可以以不同的角度、取向、视角、或者距离拍摄文档的至少一部分的多个图像来生成文档的总体可扫描图像,而不牺牲分辨率并且无需将相机与文档完美地对齐。用户可以在不对包含文本的平面表面——例如杂志、报纸、或者海报——的深度或者取向过多限制的情况下对准并且扫掠相机来捕获文档的图像。用户可以随机或者以预定的模式来捕获图像。此外,多个用户或者设备可以贡献用于形成可扫描文档的多个图像。
在附图和下面的描述中阐述了本文描述的主题的一个或者多个实施例的细节。本主题的其它特征、方面、和优点将通过说明书、附图、以及权利要求书而变得显而易见。
附图说明
图1示出了示例图像处理系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680022039.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:圆形自定义控件执行动画的方法及装置
- 下一篇:跟踪分布式计算系统中的数据流