[发明专利]一种基于多边形检测的漫画图像版面理解系统和方法无效
申请号: | 201210456998.7 | 申请日: | 2012-11-14 |
公开(公告)号: | CN102999758A | 公开(公告)日: | 2013-03-27 |
发明(设计)人: | 李鹿原;王勇涛;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06T7/00 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 苏爱华 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多边形 检测 漫画 图像 版面 理解 系统 方法 | ||
技术领域
本发明属于文档处理与计算机视觉领域,涉及一种基于多边形检测的漫画图像版面理解系统和方法。
背景技术
随着电子书,电子报纸期刊等数字出版物的普及与发展,为当前数字出版相关技术提出了许多应用需求和挑战。漫画是一类特殊的出版物,通常由简单幽默的画面组和少量文字组成,深受不同国界不同年龄段的阅读者喜爱,并且越来越多的读者开始在数字终端上阅读电子漫画文档。目前这类电子漫画文档通常由纸质漫画书籍逐页扫描得到,直接以图像文档格式或者将图像转化为PDF文档格式进行存储和显示。
一幅漫画图像可以被分成若干个独立的子图像(每个多边形边框以及包围的部分)。在漫画制作领域,这些独立的子图像常常被称为“分镜”,由两部分组成:1)角色的画面展示,对应于子图像中的图像内容部分;2)角色的语言展示即对白,即子图像中的字符块部分。目前漫画书籍在创作时是以普通纸质书籍的页面大小进行排版设计的。这样导致了一个问题,当用户在屏幕较小的终端(例如智能手机)上阅读对应的漫画图像时,无法完整清晰地观看整个漫画图像,需要上下左右来回拖动画面,阅读体验非常差,这一问题严重制约了漫画产业数字化进程。
为了克服上述的问题,相关的解决方案在文献“M.Yamada et al.Comic ImageDecomposition for Reading Comics on Cellular Phones.IEEE Trans.on information and systems,2004”中第一次被提出,该方案是将漫画图像预先分割成一个个分镜,在显示时按阅读顺序依次显示各个分镜。针对第二种解决方案,一些研究人员对使用计算机自动完成上述任务(下文简称为漫画图像版面理解)进行了尝试,上述文献在提出第二种方案的同时,还提出了一种对手工分割得到的分镜进行分镜阅读顺序检测的算法。然而,该方法局限性在于必须对于漫画版面进行手动的分割然后才能自动辨识分镜的阅读顺序,对于目前大量的漫画书籍和图像文件,手工完成上述工作费时费力。文献“T.Tanaka et al.Layout analysis of tree-structuredscene frames in comic images.IJCAI,2007”首次提出了一种将漫画图像分割成分镜的方法(下文简称为分镜分割方法)。该方法的基本假设是漫画总是能够用水平线和竖直线分割成一个个分镜(斜线可以按照斜率分为水平和竖直两种),按照分割的次序,漫画可以表示成一个树状的结构,其中根节点就代表整幅漫画,叶子节点就表示各个分镜,中间节点表示分割的方式。该文献同时提出了一种类似霍夫变换的分割线检测方法,并且对T字型分割线进行了特殊的处理。不难看出,这种方法的局限性较大,只能处理特定版式的漫画图像,对于分镜之间存在粘连的复杂情况难以进行处理。文献“C.Ponsard et al.Enhancing the accessibility for all ofdigital comic books.www.eminds.hci-rg.com,2009”提出了一种基于分水岭分割算法的分镜分割算法,主要思想是将漫画图像转为灰度图像进行二值化,然后对得到的前景图像进行分水岭分割,对分割得到的区域,去掉较小的,合并重叠较大的,然后得到分镜的分割结果。然而,该方法同样无法处理分镜之间有粘连的复杂漫画图像。
可见,目前的漫画版面分析方法大多数方法只能处理较为简单的漫画版面,有些甚至必须依赖手工处理,而没有一种高效、通用的漫画图像版面理解方法。
发明内容
为了实现高效通用的漫画版面分析,本发明提出一种基于多边形检测的漫画图像理解方法,该方法可以自动识别出组成分镜边框的多边形(大多数为四边形),并且根据识别出的多边形之间的几何位置关系判断分镜之间的阅读顺序,从而完成漫画版面理解。本发明可以提供一种高效通用的漫画版面分析方法,可以有效地处理较为复杂的漫画版面。
本发明所述的漫画内容主要是由漫画书逐页扫描得到的漫画图像或由漫画出版商提供的图像格式的漫画包。
本发明提供的技术方案如下:
一种基于多边形检测的漫画图像版面理解系统(如图1),包括:直线段检测模块、多边形检测模块;其中,
所述直线段检测模块,用于识别漫画图像中的直线段,并且记录这些直线段的位置信息;
所述多边形检测模块,根据直线段检测模块检测的结果,对直线段进行拼接,识别出完整的多边形,并且用识别出的多边形作为对应分镜的位置信息;该模块和直线段检测模块共同完成分镜的识别与提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210456998.7/2.html,转载请声明来源钻瓜专利网。