[发明专利]一种从论坛帖子列表页面中抽取帖子元数据的方法有效
| 申请号: | 200810119238.0 | 申请日: | 2008-08-29 |
| 公开(公告)号: | CN101661468A | 公开(公告)日: | 2010-03-03 |
| 发明(设计)人: | 郭岩;丁国栋;曹冬林;王宇;张刚 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁 挥;王金宝 |
| 地址: | 100080北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 论坛 帖子 列表 页面 抽取 数据 方法 | ||
1.一种从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,包括如下步骤:
步骤S1,提供论坛帖子列表页面作为样例页面,根据样例页面中的帖子记录的组织结构特征生成抽取模板;
步骤S2,根据抽取模板,对与样例页面中的帖子记录的组织结构相同或相似的论坛帖子列表页面作在线抽取操作,获得帖子元数据;
其中,所述步骤S1还包括根据样例页面中的帖子记录的组织结构特征,判断样例页面的帖子记录的组织结构类型的步骤;所述步骤S1中根据样例页面中的帖子记录的组织结构特征生成抽取模板的步骤包括:根据样例页面中的帖子记录的组织结构类型,生成与所述样例页面的帖子记录的组织结构类型相对应类型的抽取模板;
所述组织结构类型包括:
第一类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都相同,但不是<div>标签;每个帖子节点在标签树中的深度相同;帖子节点的子节点个数相同,且超过3个;
第二类型:论坛帖子列表页面对应的标签树中的帖子节点的标签都是<div>;帖子节点都具有非空的“class”属性值;帖子节点在标签树中的深度相同;帖子节点的有效子节点个数相同,且超过3个;所述有效子节点是指这样的子节点:该子节点及其子树承载的文本不为空,且该子节点具有非空的“class”属性值;
以及所述步骤S1具体包括如下步骤:
步骤S11,提供论坛帖子列表页面作为样例页面,建立样例页面的标签树;
步骤S12,根据样例页面的帖子记录的组织结构类型,设定用于分离出帖子节点的分组条件;
步骤S13,遍历标签树的各节点,根据分组条件将标签树中的节点分组;
步骤S14,选择节点数最多的组作为帖子节点组;
步骤S15,根据帖子节点组中节点的特征,生成相应类型的抽取模板。
2.根据权利要求1所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,所述步骤S1是在离线状态下提供样例页面,并生成抽取模板。
3.根据权利要求1所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S12中,当样例页面中的帖子记录的组织结构类型是第一类型时,所述分组条件为:
节点的标签都相同,但不是<div>;节点在标签树中的深度相同;节点的子节点个数相同,且超过3个。
4.根据权利要求3所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S15中,当样例页面中的帖子记录的组织结构类型是第一类型时,对应的抽取模板包括如下信息:
该抽取模板适用的论坛帖子列表页面中的帖子记录的组织结构类型为第一类型;节点的标签名称;节点在标签树中的深度;节点的子节点个数。
5.根据权利要求1所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S12中,当样例页面中的帖子记录的组织结构类型是第二类型时,所述分组条件为:
节点的标签都是<div>,且节点都具有非空的“class”属性值;节点在标签树中的深度相同;节点的有效子节点个数相同,且超过3个。
6.根据权利要求4或5所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,在步骤S15中,当样例页面中的帖子记录的组织结构类型是第二类型时,对应的抽取模板包括如下信息:
该抽取模板适用的论坛帖子列表页面中的帖子记录的组织结构类型为第二类型;节点的标签名称;节点在标签树中的深度;节点的有效子节点个数。
7.根据权利要求1所述的从论坛帖子列表页面中抽取帖子元数据的方法,其特征是,所述步骤S2具体包括如下步骤:
步骤S21,在线为待抽取帖子元数据的论坛帖子列表页面建立标签树;
步骤S22,遍历标签树的各节点,选择满足抽取模板的节点作为帖子节点;
步骤S23,对每一个帖子节点,从其每个子节点中抽取出相应的帖子记录的各字段,即帖子的元数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810119238.0/1.html,转载请声明来源钻瓜专利网。





