[发明专利]一种基于示例页面的网页正文提取方法在审
申请号: | 201310665878.2 | 申请日: | 2013-12-11 |
公开(公告)号: | CN103699591A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 兰秋军 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 赵登高 |
地址: | 410082 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种从网页中过滤掉广告、无关链接、图片等噪声信息,提取网页正文的方法。其特征在于利用同一网站栏目页面在结构、内容上的相似性,快速、准确地提取网页正文。该方法首先由用户指定一个示例页面,然后系统利用页面标签,做初步过滤,再基于编辑距离计算待处理页面和示例页面文本间的相似性,快速识别页面正文所处位置边界,从而从含噪声的页面文本中提取纯正的正文内容。本发明具有操作简单、易行,快速准确的特点。其技术方案可广泛用于网页文本信息采集、搜索、转载、挖掘分析等系统中。 | ||
搜索关键词: | 一种 基于 示例 页面 网页 正文 提取 方法 | ||
【主权项】:
一种基于示例页面的网页正文提取方法,其特征在于,由下述步骤构成:(1)用户或程序指定一个示例页面;(2)利用网页标签初步过滤,获得含正文的文本;(3) 利用编辑距离模型计算待提取页面文本与示例页面文本间的相似性,识别正文边界;(4)提取正文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310665878.2/,转载请声明来源钻瓜专利网。
- 上一篇:药箱自动码垛生产线
- 下一篇:一种地下室外墙外侧排水盲沟