[发明专利]一种基于网页数据挖掘的信息采集方法无效

申请号：	201110344785.0	申请日：	2011-11-04
公开（公告）号：	CN102402592A	公开（公告）日：	2012-04-04
发明（设计）人：	王磊;张许亮;戴福昊;马桐	申请（专利权）人：	同辉佳视（北京）信息技术股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹
地址：	100094 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网页数据挖掘信息采集方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种基于网页数据挖掘的信息采集方法。

背景技术

Web(网页)数据挖掘是从Web资源上抽取信息或知识的过程，它是将传统的数据挖掘的思想和方法应用于Web，从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。Web上的数据于传统的数据库数据不同，传统的数据库都有固定的数据模型，可以根据此模型来描述特定的数据；而Web上的数据非常复杂，没有特定的模型描述，每一个站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性，因而Web数据有一定的结构化，但因自述层次的存在，其是一种非完全结构化的数据，也被称为半结构化数据。半结构化也是Web数据的一个特点，Web数据挖掘首先要解决的就是半结构化数据源模型和半结构化模型的查询与集成技术，要想解决此问题必须要有一个模型来清晰半结构化模型。整个过程需要用到大量的人力和物力，所以目前成熟的技术和产品不是很多。

根据对Web数据的感兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘(Web Content mining)、Web结构挖掘(Web structure mining)、Web用法挖掘(Web usage Mining)。其中，Web内容挖掘，主要是对Web上的数据进行集成，抓取，并通过一定的归类和压缩从而转化成为对用户有价值的可用的数据资源。传统的Web内容挖掘一般是通过两种模式进行，一种是针对非结构化数据的采集，一种是针对半结构化数据的采集。其中，非结构化数据一般是指一些Web上的自由文本，包括小说、新闻等。这方面的研究相对比较多一些，大部分都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上，这种方法将单个的词汇看成文档集合中的属性，只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。而对于Web上的半结构化数据的挖掘，是指对加入了HTML(Hypertext Markup Language，超文本标记语言)、超链接等附加结构的信息进行挖掘，其应用包括超链接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。

如果要做Web数据挖掘和信息采集需要用到数据的分类、聚集、关联等方面的知识，更细化的来说，只分类中就要使用到统计方法、机器学习方法、神经网络方法，需要用到的计算机算法包括：贝叶斯法和非参数法，BP(Error Back Propagation，误差反向传播算法)算法等。这样拿到的数据固然清晰丰富，但是，对于一些基本的应用来说成本太高了，而且从开发的时效性上来讲确实是一个很大的负担。传统的做法需要大量的Web数据作为基础，然后通过复杂的算法将有用的信息进行筛选最后拿到自己需要的部分，这样不但从实现的手段上面来讲有很大的难度，而且需要很高的硬件支持，还要有非常畅通的网络，否则就没有办法拿到更多来自Web的数据。因此，传统的基于Web数据挖掘的信息采集方法，对于一些需求相对简单，数据量较小的信息采集需求，成本过高、时间过长。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种基于网页数据挖掘的信息采集方法，从而以较低的成本和较短的时间，满足需求简单、数据量较小的信息采集需求。

(二)技术方案

为解决上述技术问题，本发明提供一种基于网页数据挖掘的信息采集方法，其包括步骤：

A：从目标Web文档中获得待采集信息；

B：判断所述待采集信息类型是否是固定格式数据，如果是，执行步骤E；否则，从所述待采集信息中剔除无用信息后进行信息整理，然后执行步骤C；

C：判断所述待采集信息类型是否是半结构化数据，如果是，对所述待采集信息进行模式发现，然后执行步骤D；否则，执行步骤E；

D：判断是否保存有所述待采集信息的模式模板，如果是，执行步骤E；否则，对所述待采集信息进行模式分析后保存其模式模板，再执行步骤E；

E：对所述待采集信息进行分类，剔除重复信息后创建检索目录；

F：将所述待采集信息存储到本地计算机上。

优选地，在所述步骤F之后还包括步骤G：从所述待采集信息中获得需要使用的数据进行显示。