[发明专利]网页关键词提取方法、装置及系统有效
申请号: | 201010103257.1 | 申请日: | 2010-01-27 |
公开(公告)号: | CN102135967A | 公开(公告)日: | 2011-07-27 |
发明(设计)人: | 陆元飞;刘刚;朱汝维 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 关键词 提取 方法 装置 系统 | ||
技术领域
本发明涉及互联网领域,特别涉及一种网页关键词提取方法、装置及系统。
背景技术
网页关键词(keywords)的提取是海量数据背景下的互联网应用中的一个热点问题。为网页提取适当的关键词,可以用以提示和概括网页的内容。网页关键词提取在基于关键词的精准广告,网页摘要,网页检索,用户行为分析中应用广泛。
传统做法(例如,KEA关键词提取方法)倾向于从网页文本中提取关键词。先把网页爬取下来,然后做网页解析,提取网页的标题,metadata(网页元数据)信息和正文。然后再分词,去除掉stop-word(停用词)之后得到候选关键词,再提取候选关键词词的特征,通过设定一系列复杂的规则或是通过人工智能的方式来给候选关键词打分,设定阀值或是通过提取分数较高的前面N个侯选关键词来提取关键词。
需要解析网页,提取网页正文,解析网页,提取网页正文算法复杂,计算量大。而且由于互联网上的网页极不规则,提取网页正文只在针对某种特定类型的网页的时候效果才较好,例如已经产品化的中科院、海量等的网页主题提取组件,但是都只针对特定类型的网页,而网页正文提取又和关键词提取紧密联系,如果提取的网页正文里面包含广告,版权等其它信息,可能会把广告,版权等信息无提取为正文;或者是某部分重要内容没有被提取出来,关键词提取的精准度就会大大降低。因此,现有的网页解析方法计算量大,关键词提取的精准度不高。
发明内容
本发明实施例提供一种网页关键词的提取方法、装置、及系统,以减少网页解析的计算量,提高关键词提取的精度。
本发明一个实施例提供一种网页关键词提取方法,包括:
爬取互联网网页;
提取爬取下来的网页中的锚文本,提取所述锚文本的统一资源定位符URL和所述锚文本的周围文本;
根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;
将所述关键词和所述锚文本的URL关联,将所述关键词作为所述锚文本的URL指向的网页的网页关键词。
本发明一个实施例提供一种网页关键词提取装置,包括:
爬取模块,用于爬取互联网网页;
第一提取模块,用于提取爬取下来的网页中的锚文本;
第二提取模块,用于提取所述锚文本的URL;
第三提取模块,用于提取所述锚文本的周围文本;
关键词提取模块,用于根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;
关联模块,用于将所述关键词和所述锚文本的URL关联,将所述关键词作为所述锚文本的URL指向的网页的网页关键词。
本发明一个实施例提供一种关键词提取系统,包括:网页提取装置和索引关键词库:
所述网页关键词提取装置,用于用于爬取互联网网页;提取爬取下来的网页中的锚文本;提取所述锚文本的URL和所述锚文本的周围文本;根据预定的规则,从所述锚文本和所述锚文本的周围文本中提取关键词;将所述关键词和所述锚文本的URL关联,将所述关键词作为所述锚文本的URL指向的网页的网页关键词;
所述索引关键词库,用于存储所述锚文本的URL和与所述锚文本的URL关联的关键词。
本发明实施例从锚文本和锚文本的周围文本出发提取网页关键词,锚文本对具体内容网页做了高度的精炼和概况,所以提取具体内容网页的关键词,直接从锚文本提取符合网站制作网页的思路。同时锚文本周围文本,对内容网页的主题做了补充,通过这种方式,能提高关键词提取的精准度,而且提取网页关键词时不需要对网页正文进行提取,减少了复杂的网页解析,降低了关键词提取的计算量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例提供一种网页关键词提取方法的流程图;
图2本发明实施例提供一种网页关键词提取方法的流程图;
图3本发明实施例提供一种网页关键词提取方法的流程图;
图4本发明实施例提供一种网页关键词提取装置的结构图;
图5本发明实施例提供一种网页关键词提取装置的结构图;
图6本发明实施例提供一种关键词提取模块的结构图;
图7本发明实施例提供一种关键词提取模块的结构图;
图8本发明实施例提供一种网页关键词提取系统的结构图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010103257.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子设备的音频处理装置及方法
- 下一篇:机房节能散热系统及其控制方法