[发明专利]图片检索方法、装置、服务器及存储介质有效
申请号: | 201810848059.4 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109033385B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 邹红建;方高林;刘海浪 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/9535 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 检索 方法 装置 服务器 存储 介质 | ||
本发明实施例公开一种图片检索方法、装置、服务器及存储介质,其中,方法包括:从所有网页的图片中识别出多个内容相同的图片组;对每个图片组中,各图片的所有来源网页的图片相关文本进行聚合,得到每个图片组的文本描述;基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,其中针对每一个文本描述,倒排索引中至少包含该文本描述所属的图片组中所有文本描述所对应的来源网页;根据输入的检索词和倒排索引进行图片检索。本发明实施例可实现以图片为基本单位将相关来源网页聚合后作为构建倒排索引的图片文本描述信息,减少图片索引的冗余信息,同时可精准召回跨页面命中的结果,对长检索词或多个限定词语的检索词也能精准召回。
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种图片检索方法、装置、服务器及存储介质。
背景技术
随着网络信息技术的发展,互联网上的数据呈爆炸式的增长,使得对快速、准确地从互联网数据中查找自己需要的图片信息的需求越来越多。
现有技术中,通常是通过解析网页、获取图片周边文本、对文本进行分词、归一化等操作得到描述图片的文本信息,并基于该文本信息为图片建立倒排索引,当用户利用图片检索系统查找其所需的图片时,图片检索系统基于用户输入的检索词,根据倒排索引实现图片检索。
但是,在现有技术中,都是以图片出现的页面为基本单位,即,仅出现在同一页面的图片文本作为一个独立的单位,以此为基础确定图片的相关文本,并基于该相关文本建立图片的倒排索引。然而,如果查询的检索词(query)是“AB”,即对应查询表达式是“AANDB”(即A与B必须同时命中),并且同一图片的来源页面有f1和f2,f1仅包含词语“A”,f2仅包含词语“B”,那么对于上述这种查询表达式则无法满足其查询需求,无法召回该图片。
发明内容
本发明实施例提供一种图片检索方法和装置、服务器及存储介质,以达到精准召回跨页面命中的图片检索结果的目的。
第一方面,本发明实施例提供了一种图片检索方法,该方法包括:
从所有网页的图片中识别出多个内容相同的图片组;
对每个图片组中,各图片的所有来源网页的图片相关文本进行聚合,得到每个图片组的文本描述;
基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,其中,针对每一个文本描述,所述倒排索引中至少包含该文本描述所属的图片组中所有文本描述所对应的来源网页;
根据输入的检索词和所述倒排索引进行图片检索。
第二方面,本发明实施例还提供了一种图片检索装置,该装置包括:
识别模块,用于从所有网页的图片中识别出多个内容相同的图片组;
聚合模块,用于对每个图片组中,各图片的所有来源网页的图片相关文本进行聚合,得到每个图片组的文本描述;
倒排索引建立模块,用于基于每个图片组的文本描述,为各图片组中的每个图片建立倒排索引,其中,针对每一个文本描述,所述倒排索引中至少包含该文本描述所属的图片组中所有文本描述所对应的来源网页;
检索模块,用于根据输入的检索词和所述倒排索引进行图片检索。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的图片检索方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的图片检索方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810848059.4/2.html,转载请声明来源钻瓜专利网。