[发明专利]一种基于模板的自适应Web页面数据抽取方法及系统在审

申请号：	201810436651.3	申请日：	2018-05-09
公开（公告）号：	CN110471645A	公开（公告）日：	2019-11-19
发明（设计）人：	李艳霞;刘鹏;刘学	申请（专利权）人：	中国科学院声学研究所
主分类号：	G06F8/20	分类号：	G06F8/20
代理公司：	11472 北京方安思达知识产权代理有限公司	代理人：	陈琳琳;刘振<国际申请>=<国际公布>=
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据抽取模板库自适应匹配抓取转入数据抽取过程网页DOM树匹配成功人工干预匹配度构建抽取失败成功制定
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于模板的自适应Web页面数据抽取方法，所述方法包括：

步骤1)建立包含若干个数据抽取模板的数据抽取模板库；

步骤2)抓取Web页面的HTML源代码，由此构建网页DOM树；

步骤3)提取Web页面URL，与数据抽取模板库中的模板依次进行匹配，如果全部匹配成功，则选择匹配度最高的模板作为最优数据抽取模板，转入步骤5)；否则进入步骤4)；

步骤4)根据匹配失败的数据重新制定新的模板，加入数据抽取模板库，转入步骤3)；

步骤5)根据最优数据抽取模板进行数据抽取，如果数据抽取完全成功，数据抽取结束；否则，进入步骤6)；

步骤6)对最优数据抽取模板进行自适应修改后进行数据抽取，数据抽取结束。

2.根据权利要求1所述的基于模板的自适应Web页面数据抽取方法，其特征在于，所述步骤1)的数据抽取模板包括地址块和数据块，其中，所述地址块包含：表示数据抽取的网站的<site>和表示数据抽取的页面网址的<url>，所述数据块包含：表示需要抽取的页面数据的XPath路径表达式集合<xpaths>和表示数据搜索规则的<rule>；

<data>表示需要抽取的数据，由多个<node>标签构成；<node>标签中，<nodeId>表示抽取数据的标识，<title>表示抽取数据的含义；<rule>标签中，<keyword>表示关键字规则，<tag>表示Html标签规则，<context>表示上下文规则，包含<content>和<distance>两个标签，分别为上下文内容和与当前节点的距离，<font>包含<color>和<size>两个标签，分别为字体颜色和字体大小。

3.根据权利要求2所述的基于模板的自适应Web页面数据抽取方法，其特征在于，所述数据搜索规则包括关键字搜索规则、HTML标签搜索规则和上下文搜索规则；

所述关键字搜索规则为：如果目标数据对应的文本信息在Web页面中是唯一的，则在模板中的相应<keyword>标签中加入该文本信息，作为关键字规则，关键字相关度d_key(n_txt,m_key)定义为：

其中，n_txt为DOM树中节点数据对应的文本信息，m_key为模板中对应的<keyword>标签的值；

所述HTML标签搜索规则为：如果目标数据对应的是HTML标签信息在Web页面中是特殊的，则在模板中的相应<tag>标签中加入该HTML标签信息，作为HTML标签规则；HTML标签相关度d_tag(n_tag,m_tag)定义为：

其中，n_tag为DOM树节点数据对应的HTML标签信息，|n_tag|为n_tag在DOM树中出现的次数，m_tag为模板中对应的<tag>标签的值；

所述上下文搜索规则为：如果要抽取的数据不容易搜索，但它有容易搜索的上下文，那么对目标数据的搜索可以转化为对其上下文的搜索；找到其上下文后，根据上下文的位置定位目标数据，上下文相关度d_com(n_dist,m_dist)定义为：

其中，n_dist为DOM树中节点数据与对应上下文之间的距离，m_dist为模板中对应的<distance>标签的值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所，未经中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810436651.3/1.html，转载请声明来源钻瓜专利网。

上一篇：量子随机数的后处理方法、装置及量子随机数发生器
下一篇：一种通过人工配置实现复杂程序逻辑的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模板的自适应Web页面数据抽取方法及系统在审

专利文献下载