[发明专利]一种基于配置信息匹配及相似度提取网页信息的方法在审

专利信息
申请号: 201711346436.6 申请日: 2017-12-15
公开(公告)号: CN108052619A 公开(公告)日: 2018-05-18
发明(设计)人: 尚保林;王明兴;徐晓松 申请(专利权)人: 北京海致星图科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100083 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 配置 信息 匹配 相似 提取 网页 方法
【说明书】:

发明公开了一种基于配置信息匹配及相似度提取网页信息的方法,提出了基于配置信息文本匹配及相似度计算实现的未知网页表格信息提取方法,利用新颖技术手段实现对未知网页表格细粒度的解析,通过自定义配置文件,获取用户想要的信息以及屏蔽不想要的信息,通过任意配置的外部文件,实现通用表格解析;提取网页中的最小表格,通过利用现今自然语言处理领域的文本间匹配以及相似度计算方式,抽取目标信息、弃丢无效信息,直接通过文本计算的方式实现信息获取,优于传统技术只能处理标准表格的方案,实现了对多种特殊表格的处理。

技术领域

本发明涉及查询方法技术领域,尤其涉及一种基于配置信息匹配及相似度提取网页信息的方法。

背景技术

知识图谱与图数据挖掘中经常需要挖掘满足给定结构的所有子图,这个问题通常称之为子图同构、子图匹配或子图查询。当前的子图匹配算法多是基于单机的,效率比较低,不能使用多台机器并行处理,能力有限,难以处理大规模数据。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于配置信息匹配及相似度提取网页信息的方法。

本发明通过以下技术方案来实现上述目的:

本发明包括以下步骤:

S1:用户自定义与表格解析过程相关的配置文件;

S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;

S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;

S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向。得到所有表格属性并保存;

S5:将每个最小表格作为处理单位,将标签table作为根节点root;

S6:若该表格为纵向表格,获取root第一个非空子节点的标签rowspan值,此值为表头所占行数,根据表头所占行数,获取所有表头字段propertyStr;

S7:遍历表头节点的所有非空兄弟节点,遍历每一个兄弟节点的非空子节点,并记录每一个兄弟节点子节点的个数,将数值取为最大的子节点个数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711346436.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top