[发明专利]基于标签路径和文本标点比特征融合的网页正文提取方法在审
申请号: | 201711061497.8 | 申请日: | 2017-11-02 |
公开(公告)号: | CN107894974A | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 黎嘉朗;古万荣;田绪红;毛宜军;李吉平 | 申请(专利权)人: | 华南农业大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 冯炳辉 |
地址: | 510642 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于标签路径和文本标点比特征融合的网页正文提取方法,主要通过构造标签路径的文本标点比和特征融合方法,提出一种新的特征值,从而将正文从网页中提取出来。本发明的特色在于定义了文本标点比特征对衡量标签路径的平均句子长度,同时结合了标签路径的位置及其内部复杂度,给出了一个较全面的特征值去判断正文内容。使用本发明可以不需要构造提取模版较精确地提取网页正文,同时适用范围广。 | ||
搜索关键词: | 基于 标签 路径 文本 标点 特征 融合 网页 正文 提取 方法 | ||
【主权项】:
基于标签路径和文本标点比特征融合的网页正文提取方法,其特征在于,包括以下步骤:1)根据HTML文档建立DOM树,进行预处理;2)根据步骤1)中建立的DOM树,计算各个标签路径的文本标点比、标签路径深度和标签路径访问次数;3)通过证据理论将步骤2)中所求得三个标签路径特征,先构造特征TPLR和TPAR,然后融合特征构成一个新的特征值TPDS;4)根据标签路径访问次数,向TPDS特征添加奖励项,构造特征TPDS+;5)将步骤4)得出新的标签路径特征值与阈值进行比较,筛选得出正文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南农业大学,未经华南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711061497.8/,转载请声明来源钻瓜专利网。