[发明专利]一种聚类的方法、装置和系统有效
| 申请号: | 200810103097.3 | 申请日: | 2008-03-31 |
| 公开(公告)号: | CN101246504A | 公开(公告)日: | 2008-08-20 |
| 发明(设计)人: | 王志刚;贾玉龙 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 蒋贤起;逯长明 |
| 地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 方法 装置 系统 | ||
技术领域
本发明涉及网络技术领域,特别是一种聚类的方法、装置和系统。
背景技术
互联网中储存的资源数量庞大,而且还在不断的更新、膨胀。特别是随着网络带宽的扩展,包括音频视频文件在内的媒体文件,由于能够给人们的身心愉悦带来极大的享受,从而得到了高速的发展。但是,如何能够适应用户的需要,向用户提供准确的同类媒体文件信息,却随着媒体文件的膨胀,而变得越来越必要。
要搜索到这些用户的关心的资源,就要找到相关资源的链接。现有技术中提供了一种音乐搜索引擎的解决方案,主要处理过程是:
用户输入查询词;
搜索引擎接收查询词后,进行相应搜索,将链接信息中带有相应的查询词的描述信息资源链接提供给用户。
但是,这种方法的缺陷在于,如果用户所关心的资源的链接中没有相应查询词的描述信息,则用户无法获取相应的资源。另外,对于与所述查询词所代表的链接相同的资源,可能由于其描述信息的差异,而不能被作为与当前查询词有关的资源而被搜索出来。甚至,如果某些音频文件的描述信息发生了变化,但是音频文件的正文内容并没有变化的情况下,仅仅根据描述信息的搜索方式会得到错误的搜索结果。
也就是说,现有技术中至少存在如下问题:现有技术不能根据音频文件的正文内容长度,搜索出正文内容长度相同的资源。
发明内容
有鉴于此,本发明一个或多个实施例的目的在于提供一种获取聚类信息的方法、装置和系统,以实现通过计算媒体文件正文内容长度后,根据所述媒体文件的所述正文内容长度,计算所述媒体文件的聚类信息,从而能将正文内容相同的媒体文件赋予同样的聚类信息,并可以聚在一起提供给用户。
为解决上述问题,本发明实施例提供了一种获取聚类信息的方法,包括:
获取媒体文件部分正文内容;
根据所述媒体文件的部分正文内容,计算所述媒体文件的聚类信息。
还提供了一种获取聚类信息的装置,包括:
第一获取单元,用于:获取媒体文件部分正文内容;
第一计算单元,用于:根据所述媒体文件的部分正文内容,计算所述媒体文件的聚类信息。
还提供了一种获取聚类信息的系统,包括:客户端和服务器端,
所述客户端用于:发送获取媒体文件的请求,显示所述服务器端对所述请求的处理结果;
所述服务器端是本发明的各个装置实施例所限定的装置,所述服务器端用于:根据所述客户端的请求,对所述媒体文件进行相应处理后,向所述客户端返回处理结果。
与现有技术相比,本发明实施例具有以下优点:
首先,本发明实施例能够通过获取媒体文件的部分正文内容,根据所述部分正文内容,计算出所述媒体文件的聚类信息;
其次,由于本发明的实施例是通过计算媒体文件的部分正文内容来获取所述媒体文件的聚类信息,不依赖于对于媒体文件的描述信息,避免了由于人为修改描述信息而造成的错误聚类,处理方式客观准确。
再次,由于本发明的处理方式客观准确,并且能够将同样的媒体文件聚类在一起,使得用户的搜索结果更加准确、丰富,提升了用户体验;
最后,由于本发明的实施例能够通过仅仅获取所述媒体文件的部分正文内容,就可以将数量众多的媒体文件进行聚类,而不需要将媒体文件的正文内容的整体进行分析,系统所占用的资源很少,很大程度上提高了用户搜索的速度。
附图说明
图1所示,是本发明的方法的实施例一的流程图;
图2所示,是本发明的方法的实施例二的流程图;
图3所示,是本发明的装置的实施例一的框图;
图4所示,是本发明的装置的优选实施例的框图;
图5所示,是本发明的系统的实施例一的框图。
具体实施方式
下面结合附图对本发明具体实施方式做进一步的详细阐述。
参考图1所示,是本发明的方法的实施例一,包括步骤:
步骤101、获取媒体文件部分正文内容;
步骤102、根据所述媒体文件的部分正文内容,计算所述媒体文件的聚类信息。
本发明实施例具有以下优点:
首先,本发明实施例能够通过获取媒体文件的部分正文内容,根据所述部分正文内容,计算出所述媒体文件的聚类信息;
其次,由于本发明的实施例是通过计算媒体文件的部分正文内容来获取所述媒体文件的聚类信息,不依赖于对于媒体文件的描述信息,避免了由于人为修改描述信息而造成的错误聚类,处理方式客观准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810103097.3/2.html,转载请声明来源钻瓜专利网。





