[发明专利]一种抽取论坛网页中帖子内容的方法及系统有效
申请号: | 201210511269.7 | 申请日: | 2012-12-03 |
公开(公告)号: | CN103853770B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 张涛;杨建武;于晓明 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种抽取论坛网页中帖子内容的方法及系统,所述方法包括:获得一论坛网页;将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;一一对应地为所述根节点及所述至少一个子节点生成频繁模式;根据所述频繁模式中一符合预设条件的频繁模式,确定出与所述论坛网页中信息内容所对应的节点;基于一预设的公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。 | ||
搜索关键词: | 一种 抽取 论坛 网页 帖子 内容 方法 系统 | ||
【主权项】:
1.一种抽取论坛网页中帖子内容的方法,其特征在于,包括:获得一论坛网页;将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;一一对应地为所述根节点及所述至少一个子节点生成频繁模式;判断所述频繁模式中每个频繁模式的频繁度与支持度是否大于等于预设的频繁度和支持度;当一频繁模式的频繁度与支持度小于预设的频繁度和支持度时,对所述频繁模式进行剪枝处理;按照所述频繁模式的层次,根据所述频繁模式的兄弟节点、孩子节点对所述频繁模式进行扩展;根据所述频繁模式中的最大频繁模式,对论坛网页中的内容数据区域进行定位,并确定出与所述论坛网页中信息内容所对应的节点;过滤掉所述论坛网页中帖子之间相同部分;基于最大公共子树算法,从所述与所述论坛网页中信息内容所对应的节点中提取所述论坛网页中的信息内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210511269.7/,转载请声明来源钻瓜专利网。