[发明专利]基于视觉和文本特征的通用表格信息检索的方法与系统在审

专利信息
申请号: 202011004577.1 申请日: 2020-09-22
公开(公告)号: CN112100426A 公开(公告)日: 2020-12-18
发明(设计)人: 陈清财;吴黄子桑;李东方;吴湘平;蒋硕然 申请(专利权)人: 哈尔滨工业大学(深圳)
主分类号: G06F16/58 分类号: G06F16/58;G06F16/583;G06K9/00
代理公司: 深圳市君胜知识产权代理事务所(普通合伙) 44268 代理人: 朱阳波
地址: 518055 广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 视觉 文本 特征 通用 表格 信息 检索 方法 系统
【说明书】:

发明所提供的基于视觉和文本特征的通用表格信息检索的方法与系统,该方法包括输入格式标准化、表格内容索引、基本内容单元的向量化表示、查询的向量化表示、融合视觉特征的表格信息检索、内容单元合并、答案筛选并返回。基于本发明所述通用表格信息检索方法与系统可以用于以电子文档、网页、PDF和图片等多种格式出现的表格,本发明在现有基于文本特征的表格问答系统的基础上,联合表格的视觉特征,如表格的框线、基本内容单元的坐标、文本的字体、颜色和缩进等,自动根据所提问题对存在丰富视觉信息的非规范化表格进行信息检索,极大提升了对文档的检索能力,且提高了检索结果的精确度。

技术领域

本发明涉及信息检索技术领域,尤其涉及的是基于视觉和文本特征的通用表格信息检索的方法与系统。

背景技术

随着大数据时代的到来,如何有效检索和利用海量文档以发掘其中巨大潜在应用价值成为亟待解决的问题。例如,通过对政府或金融机构发布的官方文档进行批量分析处理,可以为政府或金融机构的决策提供有效依据。

文档常见的类型包括表格,其中,表格作为一种信息载体,以其对数据的组织方式简洁明了、易于分析比较的优势,在人们的日常生活中被广泛使用。而表格分析中重要的组成部分为表格信息检索,即根据表格回答用户以自然语言的形式提出的问题。而表格信息检索根据其处理的数据可以分为两类,一类是文档中的表格,其数据往往经过了精心整理和排布以便阅读,且会通过基本内容单元合并和分类汇总处理,以减少重复项。另一类是根据数据库表格回答问题,相较于文档表格,其表格结构需要遵守一定范式。

近年来,基于深度学习的表格的问答模型不断被提出,并在各表格问答数据集上占据明显优势。其中,问答模型在实现上也可以分为两类,一类根据表格文本和问题描述生成可执行语句,如SQL或Lambda DCS,通过执行语句来获得答案;另一类直接选择与问题相关的基本内容单元,并预测一个需要在这组基本内容单元上执行的聚合操作,将执行结果作为答案。

然而上述问答模型仅使用了表格的文本特征,忽略了文档表格所具有的丰富视觉信息,造成获得的答案不精确。其中,忽略的信息可列举为:三线制表格中框线标示了标题行;金融领域的表格常使用字体加粗来表示汇总项,文本缩进来表示展开项;不同行、列、基本内容单元的背景色常代表了额外信息;文本的颜色和下划线常用来表示具有超链接属性等。

可见,现有表格信息检索的方式并不能全面覆盖文档的所有特征,以至于造成检索结果精确度低。

因此,现有技术存在缺陷,有待改进和发展。

发明内容

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供基于视觉和文本特征的通用表格信息检索的方法与系统,用于解决现有技术中进行表格检索的检索结果精确度低的问题。

本发明解决技术问题所采用的技术方案如下:

一种基于视觉和文本特征的通用表格信息检索的方法,其中,包括:

获取原始表格,将原始表格转换成图片;

识别图片中的基本内容单元,为每个基本内容单元构建索引,所述索引由像素位置坐标和基本文本内容构成;

为每个基本内容单元编码对应的基本特征向量,所述基本特征向量包括视觉特征向量、坐标特征向量和文本特征向量;

当接收到查询请求时,根据接收到的待查询文本内容,编码对应的待查询特征向量;

根据待查询特征向量和基本特征向量确定与待查询文本内容对应的索引号,并根据索引号返回检索结果。

进一步地,所述识别图片中的基本内容单元,为每个基本内容单元构建索引包括以下步骤:

定位图片中的原始表格,得到标准表格;

标准表格进行切分,得到各基本内容单元及对应的像素位置坐标;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011004577.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top