[发明专利]一种新闻网页正文信息的提取方法有效

专利信息
申请号: 200510132372.0 申请日: 2005-12-21
公开(公告)号: CN1786965A 公开(公告)日: 2006-06-14
发明(设计)人: 舒文兵;吴於茜;肖建国 申请(专利权)人: 北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京英赛嘉华知识产权代理有限责任公司 代理人: 田明;王达佐
地址: 100871北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种新闻网页正文信息的提取方法,属于网页信息分析处理技术领域。现有技术中,通常采用包装器来抽取网页中感兴趣的数据,而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容,并以特定形式加以表示的,包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构,把网页数据的层次结构信息转化为用向量表达,构建和解析Html树,然后将Html树的各层次数据做对比,进行数据过滤,细化、识别,和数据重组,提取所需的数据信息。采用本发明所述的方法,适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息,速度快,准确性高。
搜索关键词: 一种 新闻 网页 正文 信息 提取 方法
【主权项】:
1.一种新闻网页正文信息的提取方法,包括以下步骤:(1)对网页进行规范化预处理,使之符合Html语言标准,然后依据Html语言中的和
标记,解析所有新闻网页的Html数据,得到Html树;(2)将由相同模版生成的Html树的各层次数据做对比,把坐标相同,所包含的有效信息也相同的table节点或div节点剔除;(3)将Html树中各层次的table节点内的数据进行细化识别,区分出标题信息和内容信息;(4)重组处理后的Html树中各个节点内的数据,提取所需的数据信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学,未经北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200510132372.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

tel code back_top