[发明专利]一种从表格中抽取信息的方法及装置有效
申请号: | 201910486551.6 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110188107B | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 任宁;卢彦博;晋耀红;李德彦 | 申请(专利权)人: | 中科鼎富(北京)科技发展有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/953 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区万*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表格 抽取 信息 方法 装置 | ||
1.一种从表格中抽取信息的方法,其特征在于,包括:
解析网页源代码,根据网页源代码中的表格标签提取网页中的表格代码;
根据所述表格代码中的单元格跨行属性值和跨列属性值分析表格是否包含跨越多行或多列的合并单元格,若包含,将所述合并单元格分解为多个最小单元格,所述最小单元格的行数和列数均为1;
对每个最小单元格使用抽取树进行规则分析,其中,所述抽取树包括表头节点,所述表头节点包括至少一个表头类别子节点,每个所述表头类别子节点包括至少一个叶子节点,所述叶子节点设置有表达式,所述表达式用于与最小单元格的内容进行匹配,以确定最小单元格是否为表头单元格,以及,确定所述表头单元格对应的表头类别;
根据表格中的非表头单元格相对于表头单元格的位置关系,确定非表头单元格的领属表头单元格;
根据非表头单元格与领属表头单元格的对应关系,以及对应的表头类别的输出规则,抽取并输出表头单元格和非表头单元格中的内容。
2.根据权利要求1所述的方法,其特征在于,所述解析网页源代码,根据网页源代码中的表格标签提取网页中的表格代码,包括:
查找网页源代码中的表格标签,并确定表格标签是否具有多层嵌套关系,如果存在多层嵌套关系,则提取最内层的表格标签对应的表格代码,如果不存在多层嵌套关系,则提取表格标签对应的全部表格代码。
3.根据权利要求1所述的方法,其特征在于,所述根据表格代码中单元格的跨行属性值和跨列属性值分析表格是否包含跨越多行或多列的合并单元格,并将所述合并单元格分解为多个最小单元格,包括:
将跨行属性值或者跨列属性值大于或者等于2的单元格确定为所述合并单元格;
根据所述跨行属性值和所述跨列属性值确定所述合并单元格应分解的目标数量;
将所述合并单元格分解成目标数量的最小单元格,并将所述合并单元格中的内容复制到分解后的每个最小单元格中。
4.根据权利要求1所述的方法,其特征在于,所述表头类别包括表头小类和表头大类,所述表头小类为单元格匹配到的所述表达式所属的目标叶子节点的名称,所述表头大类为所述目标叶子节点所属的目标表头类别子节点的名称。
5.根据权利要求1所述的方法,其特征在于,所述根据表格中的非表头单元格相对于表头单元格的位置关系,确定非表头单元格的领属表头单元格,包括:
获取非表头单元格和表头单元格的行坐标和列坐标,根据所述行坐标和列坐标查找非表头单元格的左侧或上方的表头单元格,并将查找到的表头单元格确定为非表头单元格的领属表头单元格。
6.根据权利要求4所述的方法,其特征在于,所述表头大类根据内容输出规则包括直接输出的表头大类、非直接输出的表头大类、整行输出的表头大类和不输出的表头大类。
7.根据权利要求1所述的方法,其特征在于,所述表达式包括前界表达式、后界表达式,以及位于所述前界表达式和所述后界表达式之间的抽取表达式;所述前界表达式对应设置多个概念值,所述概念值用于与最小单元格的内容匹配,以确定最小单元格是否是表头单元格,以及确定表头单元格的表头类别;所述抽取表达式用从所述表头类别对应的非表头单元格中抽取内容。
8.根据权利要求7所述的方法,其特征在于,所述表达式还包括距离条件表达式,所述距离条件表达式位于所述前界表达式和所述抽取表达式之间,或者,所述距离条件表达式位于所述抽取表达式和所述后界表达式之间。
9.一种从表格中抽取信息的装置,其特征在于,包括:
解析模块,用于解析网页源代码,根据网页源代码中的表格标签提取网页中的表格代码;
表格处理模块,用于根据所述表格代码中的单元格跨行属性值和跨列属性值分析表格是否包含跨越多行或多列的合并单元格,若包含,将所述合并单元格分解为多个最小单元格,所述最小单元格的行数和列数均为1;
表头分析模块,用于对每个最小单元格使用抽取树进行规则分析,其中,所述抽取树包括表头节点,所述表头节点包括至少一个表头类别子节点,每个所述表头类别子节点包括至少一个叶子节点,所述叶子节点设置有表达式,所述表达式用于与最小单元格的内容进行匹配,以确定最小单元格是否为表头单元格,以及,确定所述表头单元格对应的表头类别;
领属关系分析模块,用于根据表格中的非表头单元格相对于表头单元格的位置关系,确定非表头单元格的领属表头单元格;
抽取模块,用于根据非表头单元格与领属表头单元格的对应关系,以及对应的表头类别的输出规则,抽取并输出表头单元格和非表头单元格中的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科鼎富(北京)科技发展有限公司,未经中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910486551.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置