[发明专利]一种获取网络资源标识的方法及系统无效
申请号: | 200810167967.3 | 申请日: | 2008-10-16 |
公开(公告)号: | CN101383782A | 公开(公告)日: | 2009-03-11 |
发明(设计)人: | 陈晓东 | 申请(专利权)人: | 深圳市迅雷网络技术有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518057广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 网络资源 标识 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,特别是涉及一种获取网络资源标识的方法及系统。
背景技术
在搜索领域,用户通过搜索引擎搜索互联网上的各种资源(例如网页文本、图片、音频、视频、软件等等)时,搜索引擎系统根据资源存储时所采用的资源名称或描述信息(称为资源的标识)来识别每个资源,从而将与查询词相匹配的资源信息返回给用户。
因此,搜索引擎对资源的识别准确程度直接影响着搜索结果的质量,而搜索引擎对资源的识别准确程度与资源存储时所采用的资源名称或描述信息密切相关。如果资源名称或描述信息能够准确地描述该资源的实际内容,则搜索时就能够检索到该资源。如果资源名称或描述信息与该资源的实际内容不符,则使用与该资源实际内容相符的查询词进行搜索时,很有可能检索不到该资源;或者使用与该资源的描述信息相符的查询词进行搜索时,检索出来的资源实际内容与该查询词不相关。
随着互联网的快速发展,互联网上的资源海量增长,如果大量的资源标识存在描述不准确的问题,就会影响搜索的质量,同时给用户带来较差的使用体验。因此,目前急需解决的问题是如何准确描述一个资源的实际内容,提取出有效的资源标识。
发明内容
本发明实施例提供一种获取网络资源标识的方法及系统,其可解决如何准确描述一个资源的实际内容,提取出准确有效的资源标识。
根据本发明提供的具体实施例,本发明实施例公开了以下技术方案:
一种获取网络资源标识的方法,包括:
获取网络资源的多个候选标识,所述候选标识包括一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本;
从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。
本发明还提供了一种获取网络资源标识的系统,包括:
候选标识获取单元,用于获取一个网络资源的多个候选标识,所述候选标识包括一个或多个锚文本,该一个或多个锚文本为直接或间接指向所述网络资源存放地址的链接所对应的锚文本;
标识选取单元,用于从所获取的多个候选标识中选择一个作为所述网络资源的资源标识。
本发明实施例提供的技术方案可达到以下技术效果:
首先,本发明实施例提供了一种获取网络资源标识的方法,该方法通过锚文本来提取资源的标识,由于锚文本能够更准确地描述资源的实际内容,所以能够选取到优质的资源标识,提高标识提取的质量,从而提高搜索的质量。而且,本发明实施例提供的获取网络资源标识的系统实现比较简单,对系统资源要求不高。
其次,在计算候选标识的属性权值时,本发明实施例提供了几种加权条件,其中:相似性规则通过比较候选标识与资源名称的相似性,能够保证候选标识与资源的相关性;站内规则是利用同一个网站内的链接其相关性较大的特性,通过比较相邻两级的链接是否属于同一个网站,也能够保证候选标识与资源的相关性;关键词规则是利用优质标识通常是规范化的标识这一特性,通过判断候选标识是否为规范化的标识,能够找到优质的标识;版本号规则主要针对软件类的标识,由于大部分软件都会在标识上把版本号体现出来,所以通过判断候选标识中是否包含软件版本号,也能够找到优质的标识。
附图说明
图1是本发明实施例所述锚文本示意图;
图2是本发明第一实施例一种获取网络资源标识方法的流程图;
图3是本发明第二实施例一种获取网络资源标识方法的流程图;
图4是本发明实施例连接点信息示意图;
图5是本发明实施例对应一个资源的多级锚文本示意图;
图6是本发明实施例中确定的候选标识示意图;
图7是本发明实施例所述一种获取网络资源标识的系统结构图;
图8是本发明第三实施例判断子单元系统结构图;
图9是本发明第四实施例判断子单元系统结构图;
图10是本发明第五实施例判断子单元系统结构图;
图11是本发明第六实施例判断子单元系统结构图;
图12是本发明第七实施例标识选取单元系统结构图;
图13是本发明第八实施例标识选取单元系统结构图;
图14是本发明另一实施例所述一种获取网络资源标识的系统结构图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市迅雷网络技术有限公司,未经深圳市迅雷网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810167967.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:家用垃圾处理机
- 下一篇:水下自动清洁机的分水器