[发明专利]一种聚类的方法、装置和系统有效
| 申请号: | 200810103097.3 | 申请日: | 2008-03-31 |
| 公开(公告)号: | CN101246504A | 公开(公告)日: | 2008-08-20 |
| 发明(设计)人: | 王志刚;贾玉龙 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 蒋贤起;逯长明 |
| 地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 方法 装置 系统 | ||
1. 一种获取聚类信息的方法,其特征在于,包括:
获取媒体文件部分正文内容;
根据所述媒体文件的部分正文内容,计算所述媒体文件的聚类信息。
2. 如权利要求1所述的方法,其特征在于,在所述获取媒体文件部分正文内容步骤之前、之后或同时,还包括:
获取所述媒体文件的正文内容长度;
所述“根据所述媒体文件的部分正文内容,计算所述媒体文件的聚类信息”具体为:
根据所述媒体文件的正文内容长度以及所述部分正文内容,计算所述媒体文件的聚类信息。
3. 如权利要求1或2任一项所述的方法,其特征在于,所述媒体文件包括:
视频文件或音频文件。
4. 如权利要求1或2任一项所述的方法,其特征在于,所述媒体文件的聚类信息具体为:
所述媒体文件的签名。
5. 如权利要求1或2任一项所述的方法,其特征在于,所述计算所述媒体文件的聚类信息步骤之后,还包括:
根据所述聚类信息,将所述聚类信息相同的媒体文件的链接聚在一起。
6. 如权利要求5所述的方法,其特征在于,将所述聚类信息相同的媒体文件的链接聚在一起步骤之后,还包括:
将聚在一起的所述媒体文件的链接,用一个描述信息标识。
7. 如权利要求4所述的方法,其特征在于,所述计算所述媒体文件的签名步骤之后,还包括:
根据所述媒体文件的签名,将签名相同的所述媒体文件的链接聚在一起;
将聚在一起的签名相同的所述媒体文件的链接,用一个描述信息标识。
8. 如权利要求1或2任一项所述的方法,其特征在于,所述计算所述媒体文件的聚类信息步骤具体为:
使用MD5算法,计算所述媒体文件的聚类信息。
9. 如权利要求1或2任一项所述的方法,其特征在于,在获取所述媒体文件的部分正文内容之前、之后或同时,还包括:
提取所述媒体文件的描述信息。
10. 如权利要求9所述的方法,其特征在于,所述描述信息包括:
标题、关键词或页面描述信息;或,
标题、关键词和页面描述信息;或,
标题、艺术家、唱片集、作曲者,流派、版权,分级,说明,年代,长度,比特率,媒体类型,视频大小,音频解码器,视频解码器。
11. 如权利要求10所述的方法,其特征在于,在所述计算所述媒体文件的聚类信息步骤之后,如果所述媒体文件的聚类信息相同还包括:
将所述媒体文件的链接聚在一起。
12. 如权利要求9所述的方法,其特征在于,获取所述媒体文件正文内容长度具体为:
计算所述媒体文件的描述信息的占用长度;
计算所述媒体文件的占用长度;
将所述媒体文件的占用长度减去所述描述信息的占用长度,将相减结果作为所述媒体文件正文内容长度。
13. 如权利要求1所述的方法,其特征在于,获取所述媒体文件正文内容的部分正文内容具体为:
获取所述媒体文件正文内容的开始部分或结束部分或中间部分的部分正文内容;或,
获取所述媒体文件正文内容的开始部分和结束部分的部分正文内容。
14. 一种获取聚类信息的装置,其特征在于,包括:
第一获取单元,用于:获取媒体文件部分正文内容;
第一计算单元,用于:根据所述媒体文件的部分正文内容,计算所述媒体文件的聚类信息。
15. 如权利要求14所述的装置,其特征在于,还包括:
第二获取单元,用于:在所述获取媒体文件部分正文内容之前、之后或同时,获取所述媒体文件的正文内容长度;
所述第一计算单元具体为:
第二计算单元,用于:根据所述媒体文件的所述正文内容长度以及所述部分正文内容,计算所述媒体文件的聚类信息。
16. 如权利要求14或15任一项所述的装置,其特征在于,所述媒体文件包括:
视频文件或音频文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810103097.3/1.html,转载请声明来源钻瓜专利网。





