[发明专利]文件中图片标注信息识别方法、装置及服务器有效

申请号：	201710178013.1	申请日：	2017-03-23
公开（公告）号：	CN106934383B	公开（公告）日：	2018-11-30
发明（设计）人：	孙上斌;张恒	申请（专利权）人：	掌阅科技股份有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06F17/30
代理公司：	北京市浩天知识产权代理事务所(普通合伙) 11276	代理人：	宋菲;刘云贵
地址：	100124 北京市朝阳***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种文件中图片标注信息识别方法、装置、服务器及计算机存储介质。本发明先对文件中的文本对象进行文字样式聚类分析，得到具有不同文字样式的多个第一文本对象集合，从多个第一文本对象集合中过滤掉正文文本对象集合，针对每个图片页面，筛选得到至少一个第二文本对象集合，不仅可以节省验证资源，而且还提升了文件中图片标注信息的识别速率，针对每一个第二文本对象集合，对属于该文字样式的文本对象进行有效性验证，可以进一步提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案，能够准确地将图片标注信息与图片关联在一起，保证关联后的文本对象能够正确地对图片进行解释和说明。
搜索关键词：	文件图片标注信息识别方法装置服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文件中图片标注信息识别方法，包括：对文件中的文本对象进行文字样式聚类分析，得到具有不同文字样式的多个第一文本对象集合；从多个第一文本对象集合中过滤掉正文文本对象集合；遍历文件的所有页面，查询到所有页面中包含图片的图片页面；针对每个图片页面，筛选得到至少一个第二文本对象集合；针对每一个第二文本对象集合，对属于该第二文本对象集合对应的文字样式的文本对象进行有效性验证，判断该文字样式是否是图片标注信息的文字样式，若没通过有效性验证，则将属于该文字样式的第二文本对象集合过滤掉；从未被过滤掉的第二文本对象集合中提取出文本对象，根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系；其中，所述针对每个图片页面，筛选得到至少一个第二文本对象集合进一步包括：针对每个图片页面，判断包含图片与过滤掉正文文本对象集合后的文本对象的最小矩形区域中是否覆盖了其他文本对象，若是，则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合，并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司，未经掌阅科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710178013.1/，转载请声明来源钻瓜专利网。

上一篇：基于视频识别恐怖嫌疑人的方法和装置
下一篇：指纹识别器件及控制方法、触摸显示面板、触摸显示装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文件中图片标注信息识别方法、装置及服务器有效

专利文献下载