[发明专利]一种网页结构化数据自适应提取方法有效

专利信息
申请号: 201911196582.4 申请日: 2019-11-29
公开(公告)号: CN110968761B 公开(公告)日: 2022-07-08
发明(设计)人: 陈星;郭莹楠;杨植;郑勇杰;陈晓娜 申请(专利权)人: 福州大学
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 钱莉;蔡学俊
地址: 350108 福建省福州市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 结构 数据 自适应 提取 方法
【权利要求书】:

1.一种网页结构化数据自适应提取方法,其特征在于,包括以下步骤:

封装抽取模板,根据抽取模板判断目标网页的结构是否改变,若未改变则根据抽取模板中的数据的路径找到目标网页中的数据;若目标网页的结构改变,则计算抽取模板指定区域和目标网页所有区域的相似度,取相似度最高的区域作为候选区域,进行候选区域内数据项的映射,对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算,每个数据项对应相似度最高的节点;

所述根据抽取模板判断目标网页的结构是否改变具体为:

读取抽取模板中的json串和子树所有节点信息,解析成DOM树,调用JS脚本提取目标页面中所有节点的信息,并解析生成DOM树;

根据抽取模板生成的DOM树根节点的路径找到目标页面该路径下的子树,判断两个子树结构是否变化,若两个子树的相似度大于指定阈值,则目标网页结构未改变;否则认为目标网页的结构改变;

所述计算抽取模板指定区域和目标网页所有区域的相似度,取相似度最高的区域作为候选区域具体包括以下步骤:

步骤S21:判断指定区域与目标网页中每个区域间的路径相似度;

步骤S22:判断指定区域与目标网页中每个区域间的结构相似度;

步骤S23:判断指定区域与目标网页中每个区域间的文本相似度;

步骤S24:对目标网页中的每个区域,分别按照预设的权重将区域间的路径相似度、区域间的结构相似度、区域间的文本相似度进行加权计算得到该区域与指定区域的总相似度,选择总相似度最高的区域作为候选区域;

所述进行候选区域内数据项的映射,对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算,每个数据项对应相似度最高的节点具体包括以下步骤:

步骤S25:计算指定区域与候选区域中各数据项之间的路径相似度;

步骤S26:计算指定区域与候选区域中各数据项之间的结构相似度;

步骤S27:计算指定区域与候选区域中各数据项之间的文本相似度;

步骤S28:对指定区域中的每个数据项,分别按照预设的权重将步骤S25至步骤S27中的路径相似度、结构相似度、文本相似度进行加权计算得到该数据项与候选区域中的各个数据项的总相似度,选取总相似度最高的数据项作为指定区域中该数据项所对应的候选区域中的数据项。

2.根据权利要求1所述的一种网页结构化数据自适应提取方法,其特征在于,所述封装抽取模板具体包括以下步骤:

步骤S11:输入目标网页、待提取数据及抽取模板的名称,系统调用JS脚本提取页面中所有节点的信息,并解析生成DOM树;

步骤S12:根据输入的标注信息找到DOM树中包含待提取数据的指定子树;

步骤S13:将该子树的信息爬取下来存为特定格式的文件Template=Json,DOMTree,其中,Json表示网页特定区域需要抽取数据的结构化表示,DOMTree表示网页特定区域的DOM树子树。

3.根据权利要求2所述的一种网页结构化数据自适应提取方法,其特征在于,步骤S13中,所述Json表示为:

Json=name1:value1,name2:value2,...,namen:valuen

式中,namei是要抽取的数据名,valuei是该数据名所对应的数据值;

所述DOMTree表示为:

DOMTree=Node1,Node2,…,Noden

式中,Nodei为该树的一个节点,其中Node1为该子树的根节点;

给定DOM树中的一个节点Node,表示为:

Node=tag,Father,Child,xpath,text,Attri;

式中,tag为该节点的标签名,Father为该节点的父节点,Child为该节点的子节点列表,xpath为该节点的路径,text为该节点的文本内容,Attri为该节点的特征属性;

给定一个节点的特征属性Attri,表示为:

Attri=id,class,x,y,w,h;

式中,id为该节点标签的页面id,class为该节点标签的类名,x为该节点与页面左边框的距离,y为该节点和网页顶部的距离,w为该节点在网页中所占区域的宽度,h为该节点在网页中所占区域的高;

给定一个节点Node的路径xpath,表示为一个序列:

xpath=/tag1[x1]/tag2[x2]/…/tagn[xn];

式中,tagi表示路径上的标签名,xi表示该节点是DOM树中处于同一层的第i个节点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911196582.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top