[发明专利]一种网页正文内容提取方法和装置有效

申请号：	201210508772.7	申请日：	2012-12-03
公开（公告）号：	CN103853760B	公开（公告）日：	2017-05-03
发明（设计）人：	毛雅琴;张远;田冬;吴淑燕	申请（专利权）人：	中国移动通信集团公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京中誉威圣知识产权代理有限公司11279	代理人：	郭振兴,丛芳
地址：	100032 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页正文内容提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及通信领域中互联网技术领域，具体地，涉及网页正文内容提取方法及装置。

背景技术

随着Internet的迅速发展，互联网已成为人们获取信息、与人交流、共享信息的重要方式，如何更准确、更快捷、更全面的检索Web上的有用信息已成为研究热点。我们日常浏览的网页除了主题内容之外，还含有大量诸如导航信息、版权信息、广告信息、相关链接等与主题无关的内容，我们称之为“噪音”内容。这些噪音内容的存在影响并导致了检索效率和准确率的降低。

对于网页正文的提取，现有技术中有三大类主流方案：

1、基于模板的网页正文提取方法。此种方法认为同类网页具有相同的HTML结构特征和或相似的DOM树结构，通过为不同类型网页制定“模板”来提取网页正文内容。此方法通过包装器（wrapper）来提取网页中的正文数据，包装器是一个程序，该程序根据网页的布局特征制定相应的提取规则制成“模板”，解析出正文在页面中的位置。

2、基于统计的网页正文提取方法。该方法采用统计学原理对网页特征进行分析，统计每个节点文本密度（文本长度与HTML代码长度比值）并计算出文本密度区分阈值，根据文本密度与文本密度区分阈值比较结果判断该节点是否是正文节点（大于密度区分阈值的为正文节点），将所有正文节点文本连接起来即形成正文。

3、基于视觉特征的网页正文提取方法。该方法利用网页的视觉特征和DOM数结构，采用逐层迭代的方法将网页分解成正文块，对得到的正文块运用VIPS算法得到完整的语义块，在此基础上提取正文内容。

经过归纳整理，与本发明相近的技术方案如下：

申请号为201110326226的专利“基于统计回溯定位的网页正文提取方法和装置”。此发明公开了一种正文提取方法和装置，方法包括：按行分析网页，统计每行的纯文本长度并按降序排列，从纯文本长度最长的文本节点开始依次回溯，将与该文本节点具有相同特征值的所有文本节点放到一个节点组中，计算该节点组的文本集中度，取文本集中度最高的节点组作为目标节点组，将目标节点组中的纯文本率大于某一阈值的目标节点定为正文的候选节点。

申请号为201010553327的专利“基于DIV位置的网页正文抽取方法和装置”。发明利用HTML页面在DOM树中的DIV块信息重新构建DIV块，保留重新构建DIV块中的原子DIV块（原子DIV块为除其本身之外不包含任何其他DIV块的DIV块），对每个原子DIV块进行参数分析，分析过程为：从多个原子DIV块中查找出横向宽度大于预定宽度的原子DIV块，从查找出的横向宽度大于预定宽度的原子DIV块中找出面积最大的DIV块作为所述包含网页正文的DIV块。根据分析结果选取出包含网页正文DIV块后，对包含网页正文的DIV块进行内容提取，以获取网页正文。

综合以上分析，对于目前主流的三大类网页正文提取方法和技术方案，其缺点和局限性如下：

1、基于模板的网页正文提取方法的实现简单，对于特定类型网页的提取速率和准确度较高，但此方法最大的缺点和局限在于通用性和重用性差。由于网页种类繁多、结构复杂且不规范，而一个包装器的实现一般针对特定类型网页且编写过程复杂，如果待提取的信息规模较大且来自很多类信息源，就需要编写很多个包装器，这样显然是不实际的。当某一类页面的结构发生变化时，原有的包装器就失效，需要重新编写。因此，包装器的前期编写和后续维护是一项需要耗费大量时间和精力的工作。

2、基于统计的网页正文提取方法由于只是将所有文本密度大于文本密度区分阈值的正文节点的文本连接起来，其局限性在于容易漏掉一些文本较少的节点，适合于新闻类文本篇幅较长的网页，对于论坛类网页的提取效果不是很明显。

3、基于视觉特征的网页正文提取方法需要经过多次的迭代，最后需要语义块的合并，过程较为复杂，实现难度较大，并且网页视觉信息的提取也需要耗费大量时间和精力。

发明内容

本发明是为了克服现有技术中网页正文内容提取效率较低的缺陷，根据本发明的一个方面，提出一种网页正文内容提取方法。

根据本发明实施例的网页正文内容提取方法，包括：

将待提取的网页文档解析成文档对象模型树结构，将网页对应的文档对象模型树的叶子节点组成节点集合；

查找所述节点集合中层数最深的叶子节点在文档对象模型树中对应的父节点；

将叶子节点归并到父节点，将具有相同父节点的叶子节点归并；

若归并后的节点集合中的叶子节点满足设定条件，将叶子节点所包含的区域确定为网页正文内容所在区域；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司，未经中国移动通信集团公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】