[发明专利]基于标签路径和文本标点比特征融合的网页正文提取方法在审
申请号: | 201711061497.8 | 申请日: | 2017-11-02 |
公开(公告)号: | CN107894974A | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 黎嘉朗;古万荣;田绪红;毛宜军;李吉平 | 申请(专利权)人: | 华南农业大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 冯炳辉 |
地址: | 510642 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 路径 文本 标点 特征 融合 网页 正文 提取 方法 | ||
1.基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于,包括以下步骤:
1)根据HTML文档建立DOM树,进行预处理;
2)根据步骤1)中建立的DOM树,计算各个标签路径的文本标点比、标签路径深度和标签路径访问次数;
3)通过证据理论将步骤2)中所求得三个标签路径特征,先构造特征TPLR和TPAR,然后融合特征构成一个新的特征值TPDS;
4)根据标签路径访问次数,向TPDS特征添加奖励项,构造特征TPDS+;
5)将步骤4)得出新的标签路径特征值与阈值进行比较,筛选得出正文。
2.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于:在步骤1)中,将HTML文档转化为DOM树,然后将与排版、网页展示无关的标签删除,如果这些标签中包含文字,则将该节点打开,将里面的文字放到该标签的父标签的对应位置中,script标签除外。
3.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于:在步骤2)中,所述标签路径的定义为:设T是一颗DOM树,v是DOM树上的一个节点,从树T的根节点到v必存在一条简单路径,由这条简单路径上经过的节点的名称组成的序列为标签路径;
文本标点比计算公式如下:
其中,TL为非标点文本长度、PL为标点文本长度,TPRp表示对应标签路径p的文本标点比;
该公式表示标签路径的平均句子长度越长,它是正文内容的可能性就越大;
标签路径访问次数access(p)等于标签路径p下的子节点数量;
标签路径深度deep(p)等于组成标签路径p的节点数;
所述步骤3)包括以下步骤:
3.1)建立文本标点比、标签路径深度和标签路径访问次数三个特征的关系,构造两个新的特征值TPLR、TPAR,TPLR为文本标点深度比,TPAR为文本标点访问比;
文本标点深度比TPLR的计算公式:
该公式反映了标签路径深度的作用,反映了正文部分通常不会出现在标签路径过深的标签下,在深度过大时,降低标签被标记为正文的可能性;
文本标点访问比TPAR的计算公式:
该公式反映了标签路径内部复杂度的作用,反映了正文部分应该以文本为主,不包含过度的标签;
3.2)使用证据理论将标签路径的TPLR、TPAR两个特征混合起来;
3.2.1)在特征融合之前需要将特征值转换到一个置信度函数上,设mfaeture(p)为标签路径p的feature特征的置信度函数,W为标签路径的全集,转换公式为:
其中feature取TPLR和TPAR,它们代表分别在TPLR和TPAR特征下,标签路径p是正文内容的置信度;
3.2.2)使用证据理论将这两个特征融合,令融合后的特征为TPDS,公式如下:
标签路径的TPDS特征越大,它是正文内容的可能性也就越大;
在步骤4)中,向TPDS特征中添加奖励项,计算方法如下:
其中,λ为奖励系数,TPDS+特征奖励了子节点少的标签路径。
4.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于:在步骤5)中,令正文集按照预设次序遍历DOM树的各个节点,将节点TPDS+特征值与事先设置好的阈值进行比较,若大于或等于阈值,则将节点加入到content中,最终,content中的元素即为正文内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南农业大学,未经华南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711061497.8/1.html,转载请声明来源钻瓜专利网。