[发明专利]基于标签路径和文本标点比特征融合的网页正文提取方法在审

专利信息
申请号: 201711061497.8 申请日: 2017-11-02
公开(公告)号: CN107894974A 公开(公告)日: 2018-04-10
发明(设计)人: 黎嘉朗;古万荣;田绪红;毛宜军;李吉平 申请(专利权)人: 华南农业大学
主分类号: G06F17/22 分类号: G06F17/22;G06F17/30
代理公司: 广州市华学知识产权代理有限公司44245 代理人: 冯炳辉
地址: 510642 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 标签 路径 文本 标点 特征 融合 网页 正文 提取 方法
【权利要求书】:

1.基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于,包括以下步骤:

1)根据HTML文档建立DOM树,进行预处理;

2)根据步骤1)中建立的DOM树,计算各个标签路径的文本标点比、标签路径深度和标签路径访问次数;

3)通过证据理论将步骤2)中所求得三个标签路径特征,先构造特征TPLR和TPAR,然后融合特征构成一个新的特征值TPDS;

4)根据标签路径访问次数,向TPDS特征添加奖励项,构造特征TPDS+;

5)将步骤4)得出新的标签路径特征值与阈值进行比较,筛选得出正文。

2.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于:在步骤1)中,将HTML文档转化为DOM树,然后将与排版、网页展示无关的标签删除,如果这些标签中包含文字,则将该节点打开,将里面的文字放到该标签的父标签的对应位置中,script标签除外。

3.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于:在步骤2)中,所述标签路径的定义为:设T是一颗DOM树,v是DOM树上的一个节点,从树T的根节点到v必存在一条简单路径,由这条简单路径上经过的节点的名称组成的序列为标签路径;

文本标点比计算公式如下:

TPRp=TLpPLp]]>

其中,TL为非标点文本长度、PL为标点文本长度,TPRp表示对应标签路径p的文本标点比;

该公式表示标签路径的平均句子长度越长,它是正文内容的可能性就越大;

标签路径访问次数access(p)等于标签路径p下的子节点数量;

标签路径深度deep(p)等于组成标签路径p的节点数;

所述步骤3)包括以下步骤:

3.1)建立文本标点比、标签路径深度和标签路径访问次数三个特征的关系,构造两个新的特征值TPLR、TPAR,TPLR为文本标点深度比,TPAR为文本标点访问比;

文本标点深度比TPLR的计算公式:

TPLRp=TPRpdeep(p)]]>

该公式反映了标签路径深度的作用,反映了正文部分通常不会出现在标签路径过深的标签下,在深度过大时,降低标签被标记为正文的可能性;

文本标点访问比TPAR的计算公式:

TPARp=TPRpaccess(p)]]>

该公式反映了标签路径内部复杂度的作用,反映了正文部分应该以文本为主,不包含过度的标签;

3.2)使用证据理论将标签路径的TPLR、TPAR两个特征混合起来;

3.2.1)在特征融合之前需要将特征值转换到一个置信度函数上,设mfaeture(p)为标签路径p的feature特征的置信度函数,W为标签路径的全集,转换公式为:

mfeature(p)=featurepΣs∈Wfeaturep]]>

其中feature取TPLR和TPAR,它们代表分别在TPLR和TPAR特征下,标签路径p是正文内容的置信度;

3.2.2)使用证据理论将这两个特征融合,令融合后的特征为TPDS,公式如下:

TPDSp=mTPLR(p)×mTPAR(p)Σs∈WmTPLR(s)×mTPAR(s)]]>

标签路径的TPDS特征越大,它是正文内容的可能性也就越大;

在步骤4)中,向TPDS特征中添加奖励项,计算方法如下:

TPDS+p=TPDSp+λ11+[access(p)]2]]>

其中,λ为奖励系数,TPDS+特征奖励了子节点少的标签路径。

4.根据权利要求1所述的基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于:在步骤5)中,令正文集按照预设次序遍历DOM树的各个节点,将节点TPDS+特征值与事先设置好的阈值进行比较,若大于或等于阈值,则将节点加入到content中,最终,content中的元素即为正文内容。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南农业大学,未经华南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711061497.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top