[发明专利]一种网页信息抽取方法及系统有效
| 申请号: | 201110053892.8 | 申请日: | 2011-03-07 | 
| 公开(公告)号: | CN102681994A | 公开(公告)日: | 2012-09-19 | 
| 发明(设计)人: | 吴一璞 | 申请(专利权)人: | 北京百度网讯科技有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 | 
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 网页 信息 抽取 方法 系统 | ||
1.一种网页信息抽取方法,其特征在于,所述网页信息抽取方法包括:
a.获取网页,并对所述网页按站点进行分类,分为多个大类,每个所述大类对应于至少一个站点;
b.根据所述网页的页面布局,按照不同种类的模板对所述大类中的网页进行分类,将每个所述大类分为多个小类,每个所述小类对应于一种模板;
c.提取所述小类中网页的网页特征,将所述网页特征映射到所述小类所对应的模板的网页关系集合中,使所述网页特征与所述网页关系集合的节点一一对应;
d.对所述网页关系集合的每个节点进行属性标注;
e.进行数据提取,将所提取的数据与所述网页关系集合的节点相关联。
2.根据权利要求1所述的网页信息抽取方法,其特征在于,在所述步骤a中,由人工配置方式进行网页分类。
3.根据权利要求1所述的网页信息抽取方法,其特征在于,在所述步骤a中,由机器学习方式进行网页分类。
4.根据权利要求1所述的网页信息抽取方法,其特征在于,在所述步骤b中,进一步包括:
b1.对所述大类中的所述网页进行高频词挖掘;
b2.判断所述网页的所述高频词是否一致,并将所述高频词一致的网页归到同一小类。
5.根据权利要求4所述的网页信息抽取方法,其特征在于,在所述步骤b2中,所述高频词的路径深度不同便确认所述网页不属于同一类。
6.根据权利要求1所述的网页信息抽取方法,其特征在于,所述网页关系集合包括网页结构树,所述网页结构树是由树形结构的多个节点构成。
7.根据权利要求6所述的网页信息抽取方法,其特征在于,所述网页特征包括公共特征和个性特征,所述公共特征包括所述小类中的各个网页的共有网页特征,所述个性特征包括所述小类中的每个网页区别于其他网页的个性化特征。
8.根据权利要求6所述的网页信息抽取方法,其特征在于,在所述步骤c中,进一步包括:
c1.将网页映射到所在小类的网页结构树上;
c2.对齐不变的文本节点;
c3.根据不变的文本节点,生成初步网页结构树;
c4.求不变的文本节点的数值节点;
c5.根据不变的文本节点来合并初步网页结构树,形成新网页结构树;
c6.对齐剩余节点。
9.根据权利要求8所述的网页信息抽取方法,其特征在于,在所述步骤c中,进一步包括:
c7.计算新网页结构树上每一个节点的统计信息。
10.根据权利要求8所述的网页信息抽取方法,其特征在于,在所述步骤c2中,文本信息相同的节点为所述不变的文本节点。
11.根据权利要求8所述的网页信息抽取方法,其特征在于,在所述步骤c6中,进一步过滤掉无用节点。
12.根据权利要求8所述的网页信息抽取方法,其特征在于,在所述步骤d中,进一步包括:将新网页结构树模板保存,作为下次进行网页信息抽取的网页结构树。
13.一种网页信息抽取系统,其特征在于,所述网页信息抽取系统包括:
网页获取分类模块,用于获取网页,并对所述网页按站点进行分类,分为多个大类,每个大类对应至少一个站点;
网页模板分类模块,用于根据所述网页的页面布局,按照不同种类的模板对所述大类中的网页进行分类,将每个所述大类分为多个小类,每个小类对应于一种模板;
网页结构树生成模块,用于提取所述小类中网页的网页特征,将所述网页特征映射到所述小类所对应的模板的网页关系集合中,使所述网页特征与所述网页关系集合的节点一一对应;
属性标注模块,用于对所述网页关系集合的每个节点进行属性标注。
数据提取模块,用于进行数据提取,将所提取的数据与所述网页关系集合的节点相关联。
14.根据权利要求13所述的网页信息抽取系统,其特征在于,在所述网页获取分类模块中,由人工配置方式进行网页分类。
15.根据权利要求13所述的网页信息抽取系统,其特征在于,在所述网页获取分类模块中,由机器学习方式进行网页分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110053892.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种板条激光器热透镜效应的补偿装置
- 下一篇:电子装置及显示面板模块
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





