[发明专利]网页信息提取的方法及装置在审

申请号：	201810164501.1	申请日：	2018-02-27
公开（公告）号：	CN108334480A	公开（公告）日：	2018-07-27
发明（设计）人：	周柳阳;许炜;蒋林林	申请（专利权）人：	智言科技(深圳)有限公司
主分类号：	G06F17/22	分类号：	G06F17/22
代理公司：	深圳市中科创为专利代理有限公司 44384	代理人：	梁炎芳
地址：	518000 广东省深圳市宝安区新安***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页模板页面网页信息提取差异比较提取信息比对人工干预提取效率差异处智能化算法网页
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了网页信息提取的方法及装置，该方法包括：步骤S10，获取关于相同网页但数据不同的两个页面；步骤S20，将两个页面的内容进行差异比较，并对差异处进行标记；以生成网页模板；步骤S30，将网页模板与其他页面进行比对，基于差异部分，提取信息，并对提取的信息进行标记命名。本发明通过页面差异比较算法逆向生成网页模板，通过网页模板与待提取的页面进行比对提取信息，无须人工干预，从而提高了提取的智能化以及提取效率。

技术领域

本发明涉及一种基于网页差异生成模板的网页信息提取的方法及装置。

背景技术

目前网页信息提取的主要技术是先将页面下载下来，然后根据每种页面的结构，进行人力的分析，再使用XPATH，CSSSELECTOR或正则表达式等方法进行对信息的提取，该传统技术对每个页面都需重新分析解析，编写信息提取规则，浪费了大量的人力和时间。

XPATH是根据HTML树型结构的特点，只要找到对应根节点到子节点的路径，就可以将子节点下的内容提取出来。

CSSSELECTOR与XPATH类似，不同之处在于它能根据html的class，id，attribute等多样元素进行匹对，CSSSELECTOR自定义了一套匹配规则，只需写出少量的规则，选择器就会自动遍历查找到对应节点，从而提取出内容来。

发明内容

本发明的主要目的是本发明提出一种网页信息提取的方法及装置，以克服网页信息提取需要人工干预分析的缺陷，从而提升网页信息提取的智能化。

为实现上述目的，本发明提出的一种网页信息提取的方法，包括：

步骤S10，获取关于相同网页但数据不同的两个页面；

步骤S20，将两个页面的内容进行差异比较，并对差异处进行标记；以生成网页模板；

步骤S30，将网页模板与其他页面进行比对，基于差异部分，提取信息，并对提取的信息进行标记命名。

优选地，所述步骤S10具体包括：

获取关于相同网页但数据不同的两个页面的文本数据，将文本数据转换成节点树。

优选地，步骤S20具体包括：

将两个页面所形成节点树从根部至叶子进行相同位置节点的差异比较，并对差异处进行标记，以生成网页模板。

为解决上述问题，本发明还提供一种网页信息提取的装置，包括：

数据获取模块，用于获取关于相同网页但数据不同的两个页面；

模板生成模块，用于将两个页面的内容进行差异比较，并对差异处进行标记；以生成网页模板；

信息提取模块，用于将网页模板与其他页面进行比对，基于差异部分，提取信息，并对提取的信息进行标记命名。

优选地，数据获取模块具体用于获取关于相同网页但数据不同的两个页面的文本数据，将文本数据转换成节点树。

优选地，模板生成模块具体用于将两个页面所形成节点树从根部至叶子进行相同位置节点的差异比较，并对差异处进行标记，以生成网页模板。

本发明通过数据获取模块获取相同页面但是数据不同的两个页面，然后再通过模板生成模块将两个页面通过差异比较算法分析多个同类型的网页，将差异部分用模板变量标记标示，从而逆向生成网页模板。信息提取模块将网页模板与其他页面进行比对，基于差异部分，提取信息，并对提取的信息进行标记命名。具体地，数据获取模块获取关于相同网页但数据不同的两个页面的文本数据，将文本数据转换成节点树。模板生成模块再将两个页面所形成节点树从根部至叶子进行相同位置节点的差异比较，并对差异处进行标记，以生成网页模板。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于智言科技(深圳)有限公司，未经智言科技(深圳)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810164501.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页信息提取的方法及装置在审

专利文献下载