[发明专利]一种新闻网页正文信息的提取方法有效
申请号: | 200510132372.0 | 申请日: | 2005-12-21 |
公开(公告)号: | CN1786965A | 公开(公告)日: | 2006-06-14 |
发明(设计)人: | 舒文兵;吴於茜;肖建国 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 | 代理人: | 田明;王达佐 |
地址: | 100871北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种新闻网页正文信息的提取方法,属于网页信息分析处理技术领域。现有技术中,通常采用包装器来抽取网页中感兴趣的数据,而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容,并以特定形式加以表示的,包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构,把网页数据的层次结构信息转化为用向量表达,构建和解析Html树,然后将Html树的各层次数据做对比,进行数据过滤,细化、识别,和数据重组,提取所需的数据信息。采用本发明所述的方法,适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息,速度快,准确性高。 | ||
搜索关键词: | 一种 新闻 网页 正文 信息 提取 方法 | ||
【主权项】:
1.一种新闻网页正文信息的提取方法,包括以下步骤:(1)对网页进行规范化预处理,使之符合Html语言标准,然后依据Html语言中的和