[发明专利]柱状图中的信息提取方法及装置有效
申请号: | 201810162747.5 | 申请日: | 2018-02-26 |
公开(公告)号: | CN108416377B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 余宙;杨永智;靳松 | 申请(专利权)人: | 阿博茨德(北京)科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/20;G06N3/04;G06N3/08 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 林辉轮;张玲 |
地址: | 100083 北京市海淀区学院*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 柱状图 中的 信息 提取 方法 装置 | ||
本发明涉及一种柱状图中的信息提取方法及装置,所述方法包括步骤:采用基于Faster R‑CNN模型的目标检测法,检测出待处理柱状图中的各个元素;对检测出的文本元素框进行文字识别,以提取出对应的文字信息;将检测出的所有元素和文字信息转换为结构化数据。本发明方法及装置通过深度学习的方式,利用Faster R‑CNN模型进行目标检测,检测出柱状图中的各个元素,为柱状图的信息提取提供了一套既简单又有效的解决方案。
技术领域
本发明涉及数据处理技术领域,特别涉及一种柱状图中的信息提取方法及装置。
背景技术
柱状图属于图表中的一种类型,主要由柱子、文字、图例、坐标轴组成。在图像处理中,对图像中的柱状图案常利用矩形检测进行定位。传统矩形检测方法是:提取图像中不同形状图案的轮廓,挑选符合矩形特征的轮廓。提取轮廓之前通常是先分割图像中的图案。矩形图案一般是满足一定的宽高比、占空比、面积、4个角点、4条直线边缘。对提取的轮廓按照上述特征进行判断,从而实现对矩形的检测。在柱状图中,对于矩形的判断来说,干扰比较多,比如柱状一般和坐标轴连接,也会嵌入文字等,对于矩形形状的检测是个难点。要想准确提取矩形,就要对柱状周围的文字以及横坐标进行过滤,这通常是比较复杂的。而且柱状图的形式多样,设计的去干扰算法很难适应所有图像。
发明内容
本发明的目的在于改善现有技术中所存在的柱状图中的例如柱状等信息提取困难的不足,提供一种柱状图中的信息提取方法及装置。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一方面,本发明实施例中提供了一种柱状图中的信息提取方法,包括以下步骤:
输入待处理的柱状图;
采用基于FasterR-CNN模型的目标检测法,检测出待处理柱状图中的各个元素;
对检测出的文本元素框进行文字识别,以提取出对应的文字信息;
将检测出的所有元素和文字信息转换为结构化数据。
其中,所述FasterR-CNN模型通过以下方式训练得到:
步骤1,随机初始化FasterR-CNN模型中的学习参数;
步骤2,将一批训练样本输入FasterR-CNN模型中,得到当前模型参数下训练样本中第i个元素框的预测的分类概率pi及预测的包围盒坐标向量ti;
步骤3,采用如下公式对步骤2中的输出结果进行损失计算,并求取一批训练样本中所有元素框的平均损失式中,L({pi},{ti})为第i个元素框的损失,Ncls为mini-batch的值,Nreganchor位置的数量,λ为权重,为目标与非目标的对数损失,为回归损失函数;
步骤4,求解最小化并更新Faster R-CNN模型中所有的学习参数;
步骤5,循环执行步骤2~步骤4,直至设定的迭代次数。
另一方面,本发明实施例提供了一种柱状图中的信息提取装置,包括:
输入模块,用于输入待处理的柱状图;
元素检测模块,用于基于Faster R-CNN模型的目标检测法,检测出待处理柱状图中的各个元素;
文本识别模块,用于对检测出的文本元素框进行文字识别,以提取出对应的文字信息;
结构化模块,用于将检测出的所有元素和文字信息转换为结构化数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿博茨德(北京)科技有限公司,未经阿博茨德(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810162747.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置