[发明专利]图片检索方法、装置、服务器及存储介质有效
申请号: | 201810848059.4 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109033385B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 邹红建;方高林;刘海浪 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/9535 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 检索 方法 装置 服务器 存储 介质 | ||
1.一种图片检索方法,其特征在于,包括:
从所有网页的图片中识别出多个内容相同的图片组;
对于每个图片组中的多个图片,分别从各个图片的来源网页中获取各图片对应的图片相关文本,并将获取到的所述图片相关文本进行聚合,得到每个图片组的文本描述,其中,所述文本描述是指描述图片组内各个图片内容的多个关键词或关键短语;
基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,其中,针对每一个文本描述,所述倒排索引中至少包含该文本描述所属的图片组中该文本描述所对应的所有来源网页;
根据输入的检索词和所述倒排索引进行图片检索,其中,所述检索词中包括多个特定检索词。
2.根据权利要求1所述的方法,其特征在于,所述对于每个图片组中的多个图片,分别从各个图片的来源网页中获取各图片对应的图片相关文本,并将获取到的所述图片相关文本进行聚合,得到每个图片组的文本描述,包括:
对每个图片组中各图片的所有来源网页进行筛选和去重,将剩余来源网页的图片相关文本进行聚合,得到每个图片组的文本描述。
3.根据权利要求1所述的方法,其特征在于,所述根据输入的检索词和所述倒排索引进行图片检索,包括:
获取输入的检索词;
根据所述检索词与所述倒排索引中图片的文本描述的相关性,召回至少一个图片;
根据所述相关性对所述至少一个图片进行排序,并展示排序后的图片检索结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述相关性对所述至少一个图片进行排序,还包括:
如果所述至少一个图片中,第一图片与第二图片对应的相关性相同,并且第一图片对应的文本描述是来自于不同的来源网页,第二图片对应的文本描述是来自于同一个来源网页,则第二图片的排序先于第一图片。
5.根据权利要求1所述的方法,其特征在于,所述基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,包括:
针对每个图片组,通过预先训练的词向量模型将每个图片组中各图片的文本描述转换成对应的词向量,基于每个图片组中各图片的文本描述的词向量,为各图片组中的每个图片建立倒排索引;
相应的,所述根据输入的检索词和所述倒排索引进行图片检索,包括:
将输入的检索词利用预先训练的词向量模型生成检索词的词向量;
根据所述检索词的词向量和所述倒排索引进行图片检索。
6.根据权利要求3所述的方法,其特征在于,展示排序后的图片检索结果,包括:
展示排序后的至少一个图片,以及每个图片的摘要和/或详情页;
其中,每个图片的摘要和详情页的内容来自于每个图片的至少一个来源网页。
7.根据权利要求6所述的方法,其特征在于,所述展示排序后的至少一个图片,以及每个图片的摘要和/或详情页,包括:
展示排序后的至少一个图片,并且针对每一个图片,展示该图片的摘要的链接为该图片的至少一个来源网页中,符合网页权威性要求的来源网页的链接;和/或
按照设定条件,在该图片的详情页面展示其对应的至少一个来源页面的链接;
其中,所述设定条件包括:网页权威性、页面创建时间、页面更新时间、页面的图片描述文本与检索词的相关性、页面的访问热度或者用户对页面筛选的条件。
8.根据权利要求7所述的方法,其特征在于,所述按照设定条件,在该图片的详情页面展示其对应的至少一个来源页面的链接,包括:
按照设定条件,在该图片的详情页面,将所述至少一个来源网页按照网页之间的相关性进行关联展示,其中,所述相关性包括转载关系或创建时间的先后关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810848059.4/1.html,转载请声明来源钻瓜专利网。