[发明专利]一种抽取网页内容的方法及系统在审

申请号：	201711135743.X	申请日：	2017-11-16
公开（公告）号：	CN110069618A	公开（公告）日：	2019-07-30
发明（设计）人：	吴远辉	申请（专利权）人：	广州市万隆证券咨询顾问有限公司
主分类号：	G06F16/335	分类号：	G06F16/335;G06F16/9535;G06F16/903
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	郑泽萍;胡辉
地址：	510600 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	抽取网页内容内容抽取网页正则表达式继续执行匹配样式信息处理领域速度实现准确率成功输出应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种抽取网页内容的方法及系统，包括以下步骤：S1、对网页进行基于正则表达式匹配的内容抽取处理，当判断抽取成功时，执行步骤S4，反之，继续执行步骤S2；S2、对网页进行基于CSS样式的内容抽取处理，当判断抽取成功时，执行步骤S4，反之，继续执行步骤S3；S3、对网页进行基于XPath匹配的内容抽取处理；S4、输出抽取结果。本发明通过采用正则表达式、CSS样式、XPath依序相结合的方式进行网页内容抽取，可以以最快的速度实现网页内容抽取，而且三种抽取方式相结合，大大提高了所抽取网页内容的准确率，可提供有效、精确的抽取结果，可广泛应用于网页的信息处理领域中。

技术领域

本发明涉及计算机应用和信息抽取领域，特别是涉及一种抽取网页内容的方法及系统。

背景技术

名词解释：

CSS样式：层叠样式表，一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言；

XPath：一门在XML文档中查找信息的语言，它是一种用于确定XML文档中某部分位置的语言。Xpath基于XML的树状结构，提供在数据结构树中寻找节点的能力。

一般的文本挖掘分析，都会涉及到网页内容提取。网页内容是文本中基本的信息元素，是正确理解文本的基础。网页内容抽取是机器学习等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

在网页内容的抽取过程中，WEB网页的内容除了主题内容外，还有例如版权信息，广告、导航栏，装饰信息等与主题内容无关的内容，称为“噪音”信息，这些噪音增加了正文内容的自动抽取难度。如何清除噪音信息，将网页中的正文内容提取出来，在互联网技术迅猛发展的今天具有重要意义。目前在这个领域已经有了一些方法，但是技术手段比较单一，抽取速度比较慢，而且抽取准确率比较低，难以满足应用需求。

发明内容

为了解决上述的技术问题，本发明的目的是提供一种抽取网页内容的方法及系统。

本发明解决其技术问题所采用的技术方案是：

一种抽取网页内容的方法，包括以下步骤：

S1、对网页进行基于正则表达式匹配的内容抽取处理，当判断抽取成功时，执行步骤S4，反之，继续执行步骤S2；

S2、对网页进行基于CSS样式的内容抽取处理，当判断抽取成功时，执行步骤S4，反之，继续执行步骤S3；

S3、对网页进行基于XPath匹配的内容抽取处理；

S4、输出抽取结果。

进一步作为优选的实施方式，所述步骤S1中所述对网页进行基于正则表达式匹配的内容抽取处理的步骤，具体包括：

S11、配置网页的正则表达式；

S12、利用正则表达式对网页进行内容抽取处理；

S13、对抽取结果进行数据清洗。