[发明专利]一种基于文字查找匹配图片的方法有效
| 申请号: | 202110576605.5 | 申请日: | 2021-05-26 |
| 公开(公告)号: | CN113204666B | 公开(公告)日: | 2022-04-05 |
| 发明(设计)人: | 赵天成 | 申请(专利权)人: | 杭州联汇科技股份有限公司 |
| 主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/51;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 杭州知见专利代理有限公司 33295 | 代理人: | 卢金元 |
| 地址: | 310052 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文字 查找 匹配 图片 方法 | ||
本方案公开了一种基于文字查找匹配图片的方法,其包括以下步骤:S1、在预训练模型中检索查询语句中的每一个字段相对应的词向量,作为该字段的初始特征;S2、计算出查询语句与图片库中每张图像的匹配分数;S3、将每张图片的匹配分数转换为带权重的倒排索引形式,即以词为单位,记录含有每个词的图片ID,并且记录这个词在这个图片的权重,输出检索结果。本方案可以学习查询语句字段与图片区域的精确联系,从而获得高召回率的表现;得益于独立学习查询语语句字段的特征以及图片区域的特征,预先将图片编入索引,并把整个检索操作归纳为倒排索引,从而保证了跨模态检索的效率。本方案适用于图片识别检索领域。
技术领域
本发明涉及图片识别处理领域,尤其是涉及一种基于文字查找匹配图片的方法。
背景技术
现有的通过给定的查询语句查找最匹配的图片的方案,一般是着力于研究如何建模从而学习语句与图片之间的联系,但是现有的模型都没有考虑到准确率和实际场景中应用的集合,适用性较差。
发明内容
本发明主要是解决现有技术所存在的缺乏考虑实际场景导致准确率不高的技术问题,提供一种具有较高准确率的基于文字查找匹配图片的方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于文字查找匹配图片的方法,包括以下步骤:
S1、对查询语句进行编码;
S2、计算出编码后的查询语句与图片库中每张图像的匹配分数;
S3、将每张图片的匹配分数转换为带权重的倒排索引形式,即以词为单位,记录含有每个词的图片ID,并且记录这个词在这个图片的权重,输出检索结果。
作为优选,步骤S1具体为:
在预训练模型中检索查询语句中的每一个字段相对应的词向量,作为该字段的初始特征,
wi为查询语句中的第i个字段,为检索得到的词向量,BertEmbedding表示大型预训练模型所取得的存储字段词向量的词典;
查询语句表示为m是词典所包含的词的个数,是词典输出的dH维度的向量。
作为优选,步骤S1具体为:
对于查询语句q=[w1,w2,…,ws],提取所有1-2的n-gram组合,包含N=[w1,w2,…,ws,w12,w23,…,w(s-1)s],用BertEmbedding对N进行向量化编码:
Wi=BertEmbedding(wi)
Wij=Avg(BertEmbedding([wi,wj])
得到编码后的查询语句。
对于所有1-gram来说,我们通过BertEmbedding直接进行词向量编码。对于2-gram来说,我们通过BertEmbedding对其两个单词进行编码,然后用平均数的方式取得两个词的向量表示方式。通过这种方式,既能保证可以提前建立关于一个图片库的索引,又可以一定程度上保留查询q里的词序信息,最终性能高于仅仅依靠1-gram的算法,达到了保持后期查询的高效率且一定程度上保留查询语句中的词序关系的目的。
作为优选,每张图片通过以下步骤进入图片库:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州联汇科技股份有限公司,未经杭州联汇科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110576605.5/2.html,转载请声明来源钻瓜专利网。





