[发明专利]一种网页结构化数据自适应提取方法有效
| 申请号: | 201911196582.4 | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN110968761B | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 陈星;郭莹楠;杨植;郑勇杰;陈晓娜 | 申请(专利权)人: | 福州大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951 |
| 代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
| 地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网页 结构 数据 自适应 提取 方法 | ||
1.一种网页结构化数据自适应提取方法,其特征在于,包括以下步骤:
封装抽取模板,根据抽取模板判断目标网页的结构是否改变,若未改变则根据抽取模板中的数据的路径找到目标网页中的数据;若目标网页的结构改变,则计算抽取模板指定区域和目标网页所有区域的相似度,取相似度最高的区域作为候选区域,进行候选区域内数据项的映射,对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算,每个数据项对应相似度最高的节点;
所述根据抽取模板判断目标网页的结构是否改变具体为:
读取抽取模板中的json串和子树所有节点信息,解析成DOM树,调用JS脚本提取目标页面中所有节点的信息,并解析生成DOM树;
根据抽取模板生成的DOM树根节点的路径找到目标页面该路径下的子树,判断两个子树结构是否变化,若两个子树的相似度大于指定阈值,则目标网页结构未改变;否则认为目标网页的结构改变;
所述计算抽取模板指定区域和目标网页所有区域的相似度,取相似度最高的区域作为候选区域具体包括以下步骤:
步骤S21:判断指定区域与目标网页中每个区域间的路径相似度;
步骤S22:判断指定区域与目标网页中每个区域间的结构相似度;
步骤S23:判断指定区域与目标网页中每个区域间的文本相似度;
步骤S24:对目标网页中的每个区域,分别按照预设的权重将区域间的路径相似度、区域间的结构相似度、区域间的文本相似度进行加权计算得到该区域与指定区域的总相似度,选择总相似度最高的区域作为候选区域;
所述进行候选区域内数据项的映射,对每个数据项对应节点和目标网页中所有文本内容不为空的节点进行相似度计算,每个数据项对应相似度最高的节点具体包括以下步骤:
步骤S25:计算指定区域与候选区域中各数据项之间的路径相似度;
步骤S26:计算指定区域与候选区域中各数据项之间的结构相似度;
步骤S27:计算指定区域与候选区域中各数据项之间的文本相似度;
步骤S28:对指定区域中的每个数据项,分别按照预设的权重将步骤S25至步骤S27中的路径相似度、结构相似度、文本相似度进行加权计算得到该数据项与候选区域中的各个数据项的总相似度,选取总相似度最高的数据项作为指定区域中该数据项所对应的候选区域中的数据项。
2.根据权利要求1所述的一种网页结构化数据自适应提取方法,其特征在于,所述封装抽取模板具体包括以下步骤:
步骤S11:输入目标网页、待提取数据及抽取模板的名称,系统调用JS脚本提取页面中所有节点的信息,并解析生成DOM树;
步骤S12:根据输入的标注信息找到DOM树中包含待提取数据的指定子树;
步骤S13:将该子树的信息爬取下来存为特定格式的文件Template=Json,DOMTree,其中,Json表示网页特定区域需要抽取数据的结构化表示,DOMTree表示网页特定区域的DOM树子树。
3.根据权利要求2所述的一种网页结构化数据自适应提取方法,其特征在于,步骤S13中,所述Json表示为:
Json=name1:value1,name2:value2,...,namen:valuen;
式中,namei是要抽取的数据名,valuei是该数据名所对应的数据值;
所述DOMTree表示为:
DOMTree=Node1,Node2,…,Noden;
式中,Nodei为该树的一个节点,其中Node1为该子树的根节点;
给定DOM树中的一个节点Node,表示为:
Node=tag,Father,Child,xpath,text,Attri;
式中,tag为该节点的标签名,Father为该节点的父节点,Child为该节点的子节点列表,xpath为该节点的路径,text为该节点的文本内容,Attri为该节点的特征属性;
给定一个节点的特征属性Attri,表示为:
Attri=id,class,x,y,w,h;
式中,id为该节点标签的页面id,class为该节点标签的类名,x为该节点与页面左边框的距离,y为该节点和网页顶部的距离,w为该节点在网页中所占区域的宽度,h为该节点在网页中所占区域的高;
给定一个节点Node的路径xpath,表示为一个序列:
xpath=/tag1[x1]/tag2[x2]/…/tagn[xn];
式中,tagi表示路径上的标签名,xi表示该节点是DOM树中处于同一层的第i个节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911196582.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





