[发明专利]处理图片的方法、装置以及搜索图片的方法有效
申请号: | 200810116455.4 | 申请日: | 2008-07-10 |
公开(公告)号: | CN101308508A | 公开(公告)日: | 2008-11-19 |
发明(设计)人: | 贾梦雷;张阔 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 蒋贤起;逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 图片 方法 装置 以及 搜索 | ||
1.一种处理图片标题的方法,其特征在于,包括:
将所有图片的图片标题以图片所在页面的网站为单位划分;
将所述图片标题依分隔符分割成若干个字段;
统计图片标题中所包含的各个字段在同一网站下的各个图片标题中出现 的次数;
如果所述字段出现的次数达到预置条件,则将所述字段识别为相应网站 中的无效字段;
去除所述相应网站中图片标题中所包含的所述无效字段。
2.如权利要求1所述的方法,其特征在于,如果所述字段出现的次数达 到预置条件,则将所述字段识别为相应网站中的无效字段具体为:
如果所述字段的出现次数达到预定值,而且所述字段的出现次数与所述 网站包含的图片总数之比达到预定值,则将所述字段识别为所述网站中的无 效字段;或
如果所述网站包含的图片数量达到预定值,而且所述字段的出现次数与 所有字段出现的次数之比达到预定值,则将所述字段识别为所述网站中的无 效字段;或
如果所述字段的出现次数或者所述字段的出现次数与所有字段出现的次 数之比,达到预定值,并且所述字段分词后的结果表明所述字段属于无效信 息,则将所述字段识别为相应网站中的无效字段。
3.如权利要求1所述的方法,其特征在于所述无效字段包含:论坛、社 区、相册、注册、日志、贴图、浏览或转载。
4.如权利要求1所述的方法,其特征在于,所述将所有图片的图片标题 以图片所在页面的网站为单位划分之后,所述将所述图片标题依分隔符分割 成若干个字段之前,还包括:
对于图片标题中中括号内的字段,从图片标题中去除。
5.权利要求1所述的方法,其特征在于,在去除所述相应网站中图片标 题中所包含的所述无效字段之后,还包括:
建立所述网站与所述无效字段的对应关系。
6.权利要求5所述的方法,其特征在于,在建立所述网站与所述无效字 段的对应关系之后,还包括:
对于图片标题中中括号内的字段,保存在特定域;
对所述图片所在的页面的网站,根据所述网站与所述无效字段的对应关 系,查找所述图片标题中的无效字段,将所述无效字段移动到特定域;
将所述图片标题中剩余的文字作为图片标题。
7.如权利要求1所述的方法,其特征在于,去除所述相应网站中图片标 题中所包含的所述无效字段之后,还包括:
获取与查询词相关的图片标题;
输出所述与查询词相关的图片标题对应的链接。
8.如权利要求6所述的方法,其特征在于,将所述图片标题中剩余的文 字作为图片标题之后,还包括:
将无效字段所在的特定域进行降权处理;
获取与查询词相关的图片标题;
输出所述与查询词相关的图片标题对应的链接。
9.一种处理图片标题的装置,其特征在于,包括:
网站划分单元,用于将所有图片的图片标题以图片所在页面的网站为单 位划分;
分隔单元,用于将所述图片标题依分隔符分割成若干个字段;
统计单元,用于统计图片标题中所包含的各个字段在同一网站下的各个 图片标题中出现的次数;
识别单元,用于如果所述字段出现的次数达到预置条件,则将所述字段 识别为相应网站中的无效字段;
第一去除单元,用于去除所述相应网站中图片标题中所包含的所述无效 字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810116455.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种连续生产多晶硅锭的定向凝固方法及其装置
- 下一篇:用户组织管理系统及方法