[发明专利]一种Web论坛信息抽取系统无效
| 申请号: | 200910227300.2 | 申请日: | 2009-12-04 |
| 公开(公告)号: | CN101727486A | 公开(公告)日: | 2010-06-09 |
| 发明(设计)人: | 李弼程;王允;林琛;郭志刚;阎红灿 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450002 *** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 web 论坛 信息 抽取 系统 | ||
技术领域
本发明涉及Web信息处理技术领域,尤其是涉及一种Web论坛信息抽取系统。
背景技术
随着互联网技术的不断发展,互联网上的信息呈现出爆炸式的增长。而其中Web论坛发展得尤为迅猛,据中国Web信息中心2008年底的统计,Web论坛的使用人数达到了9100万,占网民总数的30%以上。每天都有成千上万的人在不同的Web论坛发布信息、探讨问题、交流观点,日积月累使Web论坛成为一个巨大的信息资源库,如何有效的从Web论坛中抽取出有用的信息具有重要的意义。
Web论坛信息抽取属于Web信息抽取中针对网页中某种属性的抽取,比根据从新闻报道中抽取标题、正文内容、作者、发表时间等。目前Web信息抽取的方法主要有三种:
(1)、手工方法:通过观察网页代码发现一定的模式,再根据此模式编写程序实现目标数据的抽取。当需要处理的站点数量较大时,此种方法需要耗费大量的人力劳动,代价较高。
(2)、构造分装器(Wrapper):分装器是一种软件构件,主要通过两种方式来生成,一是通过领域专家来制定抽取规则,二是采用机器学习算法通过学习标注过的样本来自动生成Wrapper。这实际上是一种半自动的抽取方法,仍然需要手工标注样本,
(3)、自动抽取:无监督的方法,该种方法能从网页中自动寻找模式或语法以进行数据的抽取。因为此种方法不需要手工标注样本,所以适用于处理大量站点和网页的信息抽取工作,但是其准确率相对较低。
由于互联网上论坛数量巨大,而且各个论坛风格各异,现有方法用于Web论坛信息抽取时或多或少存在一些问题:方法1,2需要大量的人工参与,无法满足实际应用的需求;方法3能实现自动抽取但准确率又比较低。因此,我们迫切需求一种适用与Web论坛信息抽取的全自动、准确率高的方法。
发明内容
有鉴于此,本发明的目的在于提供一种Web论坛信息抽取系统,该系统能对互联网上多种论坛的指定信息进行自动抽取,且有很高的准确率。
为达到上述目的,本发明的系统包括以下模块:
网页采集模块,用于根据用户指定的论坛站点和相应的版块自动下载论坛网页;网页解析模块,用于对网页内容进行清洗,形成网页的文档对象模型(DOM)以便信息抽取算法的实施;在线抽取模块,用于根据论坛网页的布局结构特点对网页中的指定信息进行抽取;数据库存储模块,用于将所抽取的内容存储在数据库系统中以便进行其它的应用。
进一步,所述网页采集模块包括以下单元:
网页获取单元,该单元向HTTP服务器发送请求,读取返回的内容;链接获取单元,该单元从下载到的网页中分析提取出待下载的网页的URL;下载队列管理单元,该单元根据一定的策略从下载URL队列中取出下一个要下载的URL。
进一步,所述网页解析模块还用于所述网页采集模块中的链接获取单元,链接分析提取是基于网页的DOM树进行的。
进一步,所述在线抽取模块包括以下单元:网页主题信息块发现单元,该单元从网页中确定包含待抽取信息的块状区域,对网页噪声进行初步过滤;信息抽取单元,该单元对主题信息块中的网页噪声进行进一步的过滤,再从中抽取出指定的信息。
进一步,所述数据库存储模块包括以下单元:信息识别单元,该单元用于确定抽取出的信息是否已存在于数据库中,进一步确定是否要进行插入记录操作或是更新记录操作或是空操作;信息保存单元,该单元将抽取出的信息插入或更新至数据库。
本发明的有益效果是:
本发明的有益效果在于,由于抓住了论坛网页在布局结构上的共有特点,使得本发明可以适用于互联网上绝大多数的论坛,通用性比较强。同时通过逐步缩小待抽取信息的范围以及利用了待抽取信息的统计规律和自身特点,使信息抽取的准确率很高;另外,本发明不需要人工标注样本,极大的减少了成本。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
附图为本发明的结构示意图。
图1是本发明Web论坛信息抽取系统的结构图;
图2是本发明Web论坛信息抽取系统操作方法的流程图;
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
如图1所示,本发明的系统结构包括如下模块:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910227300.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页练字法和网页练字帖
- 下一篇:含有杂质三七皂苷R1的人参皂苷Rg1
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





