[发明专利]基于标签路径和文本标点比特征融合的网页正文提取方法在审

申请号：	201711061497.8	申请日：	2017-11-02
公开（公告）号：	CN107894974A	公开（公告）日：	2018-04-10
发明（设计）人：	黎嘉朗;古万荣;田绪红;毛宜军;李吉平	申请（专利权）人：	华南农业大学
主分类号：	G06F17/22	分类号：	G06F17/22;G06F17/30
代理公司：	广州市华学知识产权代理有限公司44245	代理人：	冯炳辉
地址：	510642 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于标签路径文本标点特征融合网页正文提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于标签路径和文本标点比特征融合的网页正文提取方法，其特征在于，包括以下步骤：

1)根据HTML文档建立DOM树，进行预处理；

2)根据步骤1)中建立的DOM树，计算各个标签路径的文本标点比、标签路径深度和标签路径访问次数；

3)通过证据理论将步骤2)中所求得三个标签路径特征，先构造特征TPLR和TPAR，然后融合特征构成一个新的特征值TPDS；

4)根据标签路径访问次数，向TPDS特征添加奖励项，构造特征TPDS+；

5)将步骤4)得出新的标签路径特征值与阈值进行比较，筛选得出正文。

2.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法，其特征在于：在步骤1)中，将HTML文档转化为DOM树，然后将与排版、网页展示无关的标签删除，如果这些标签中包含文字，则将该节点打开，将里面的文字放到该标签的父标签的对应位置中，script标签除外。

3.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法，其特征在于：在步骤2)中，所述标签路径的定义为：设T是一颗DOM树，v是DOM树上的一个节点，从树T的根节点到v必存在一条简单路径，由这条简单路径上经过的节点的名称组成的序列为标签路径；

文本标点比计算公式如下：

TPRp=TLpPLp]]>

其中，TL为非标点文本长度、PL为标点文本长度,TPR_p表示对应标签路径p的文本标点比；

该公式表示标签路径的平均句子长度越长，它是正文内容的可能性就越大；

标签路径访问次数access(p)等于标签路径p下的子节点数量；

标签路径深度deep(p)等于组成标签路径p的节点数；

所述步骤3)包括以下步骤：

3.1)建立文本标点比、标签路径深度和标签路径访问次数三个特征的关系，构造两个新的特征值TPLR、TPAR，TPLR为文本标点深度比，TPAR为文本标点访问比；

文本标点深度比TPLR的计算公式：

TPLRp=TPRpdeep(p)]]>

该公式反映了标签路径深度的作用，反映了正文部分通常不会出现在标签路径过深的标签下，在深度过大时，降低标签被标记为正文的可能性；

文本标点访问比TPAR的计算公式：

TPARp=TPRpaccess(p)]]>

该公式反映了标签路径内部复杂度的作用，反映了正文部分应该以文本为主，不包含过度的标签；

3.2)使用证据理论将标签路径的TPLR、TPAR两个特征混合起来；

3.2.1)在特征融合之前需要将特征值转换到一个置信度函数上，设m_faeture(p)为标签路径p的feature特征的置信度函数，W为标签路径的全集，转换公式为：

mfeature(p)=featurepΣs&Element;Wfeaturep]]>

其中feature取TPLR和TPAR，它们代表分别在TPLR和TPAR特征下，标签路径p是正文内容的置信度；

3.2.2)使用证据理论将这两个特征融合，令融合后的特征为TPDS，公式如下：

TPDSp=mTPLR(p)×mTPAR(p)Σs&Element;WmTPLR(s)×mTPAR(s)]]>

标签路径的TPDS特征越大，它是正文内容的可能性也就越大；

在步骤4)中，向TPDS特征中添加奖励项，计算方法如下：

TPDS+p=TPDSp+λ11+[access(p)]2]]>

其中，λ为奖励系数，TPDS+特征奖励了子节点少的标签路径。

4.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法，其特征在于：在步骤5)中，令正文集按照预设次序遍历DOM树的各个节点，将节点TPDS+特征值与事先设置好的阈值进行比较，若大于或等于阈值，则将节点加入到content中，最终，content中的元素即为正文内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南农业大学，未经华南农业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711061497.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载