[发明专利]一种多媒体文件搜索引擎的排序方法有效
| 申请号: | 200610090568.2 | 申请日: | 2006-06-28 |
| 公开(公告)号: | CN101075238A | 公开(公告)日: | 2007-11-21 |
| 发明(设计)人: | 余祥鑫;文杰;熊应;刘致远 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 罗正云;宋志强 |
| 地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多媒体 文件 搜索引擎 排序 方法 | ||
技术领域
本发明涉及搜索引擎技术领域,更具体地说,本发明涉及一种多媒体文件搜索引擎的排序方法。
背景技术
搜索引擎技术是近几年非常热门的技术,以其为核心基础的网页搜索、新闻搜索、多媒体文件搜索、地图搜索等都具有很大的实用价值和商业价值。目前,各种搜索引擎技术层出不穷,与其相关的各种搜索应用也在飞速发展当中。
通常而言,多媒体文件搜索一般包括音乐文件搜索、视频文件搜索和图片文件搜索等。音乐文件搜索引擎通常又叫Mp3搜索引擎,它以搜索技术为基础,检索和提供Mp3及其它各种格式音乐文件的信息搜索和下载统一资源描述符(URL)。同样,视频文件搜索引擎以搜索技术为基础,检索和提供RM、WMV及其它各种格式视频文件的信息搜索和下载URL;图片文件搜索引擎以搜索技术为基础,检索和提供联合图像专家组(JPEG)及其它各种格式图像文件的信息搜索和URL。
随着搜索技术的不断成熟,以及互联网用户对多媒体文件下载服务的需求不断增大,近年来多媒体文件搜索的竞争越来越激烈,技术发展也越来越快。因此,除了需要从数量上提高搜索结果(比如增加多媒体文件链接的数量、减少死链接等)以外,还必须对搜索质量进行提高,以提供给用户尽可能好的体验。
在文件搜索中需要对搜索结果进行排序,而搜索结果的排序是搜索体验中最为关键的部分之一。对于多媒体文件搜索来说,除了需要由搜索引擎搜索出多媒体文件的URL之外,通常还需要提供一些额外的多媒体文件信息。比如,对于Mp3搜索引擎来说,除了提供Mp3文件的URL链接以外,还需要提供Mp3文件的歌曲名称、歌手名称、专辑名称等信息。再比如,对于视频文件搜索引擎来说,还需要提供视频文件的名称、演员名称等信息。保证这些信息的完整和合理排序,是一个良好的多媒体文件搜索引擎的基础。
图1为现有技术中的多媒体文件搜索引擎的排序示意图。首先由爬虫(Crawler)从互联网获取多媒体文件的下载链接,然后由检测器(Detector)对这些下载链接进行检测以检测出其中的活链,检测器并且对活链打分排序后送索引器,再由索引器(Index)建立查询索引,最后由用户根据所建立的索引从互联网上进行下载等直接操作。其中,排序问题基本可以转化为对搜索结果的打分问题,主要考虑两个方面:
1、对爬虫在网页上抓取的链接本身和锚文本(anchor)进行打分;
2、对Mp3、WMA等文件的Tag信息进行打分,Tag信息为多媒体文件通常带有的歌曲名、歌手、专辑等信息。
一般来说,可以结合考虑以上两种方面来解决基本的排序问题。然而,随着搜索技术的发展,搜索欺骗(spam)技术也层出不穷,很多网站针对Tag信息作出了各种欺骗搜索,这样根据Tag进行的打分往往会不准确,会给欺骗网站打很高的分数,甚至帮助欺骗网站打广告,从而严重降低了用户体验度。
另外,由于爬虫抓取的网页下载链接和锚文本的重复几率都比较大,因此利用锚文本往往无法区分两个不相同的多媒体文件。比如,很多锚文本都是“点击”或“试听”、“试看”等文本,利用这些信息无法区分其所对应的多媒体文件。
不仅与此,由于网页和Tag的欺骗手段千变万化,并且随着时间发展而更隐蔽,因此用固定的规则很难达到防止欺骗和区分重复记录的效果。
发明内容
有鉴于此,本发明的主要目的是提出一种多媒体文件搜索引擎的排序方法,以动态地降低甚至克服搜索过程中的欺骗。
为达到上述目的,本发明的技术方案是这样实现的:
一种多媒体文件搜索引擎的排序方法,预先设置至少一个原子规则,并进一步设置由原子规则所表示的排序规则,该方法还包括以下步骤:
A、爬虫从互联网中获取多媒体文件的下载链接信息,所述下载链接信息中至少包括多媒体文件的下载链接;
B、检测器将所述排序规则解析成原子规则,并根据解析出的原子规则对所述下载链接信息进行检测并打分;
C、索引器根据所述打分的结果对多媒体文件的下载链接进行排序。
所述原子规则包括以下逻辑规则中的任一个或其中至少一个的任意组合:
信息百分比大于预先设定值、信息百分比包含预先设定值、信息百分比不等于预先设定值、信息百分比小于预先设定值、信息百分比等于预先设定值、丢弃信息、不丢弃信息,其中信息百分比为某个信息在总信息中的比例。
所述设置由原子规则所表示的排序规则为:将排序规则设置为原子规则的正则表达式;
步骤B所述检测器将排序规则解析成原子规则为:检测器分析所述正则表达式,以将所述排序规则解析成原子规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610090568.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:导轨防护罩点焊式唇形密封装置
- 下一篇:数字安全存储卡封装结构





