[发明专利]针对跨媒体检索的相似性度量方法有效
| 申请号: | 202010519309.7 | 申请日: | 2020-06-09 |
| 公开(公告)号: | CN111783842B | 公开(公告)日: | 2022-09-27 |
| 发明(设计)人: | 王琼;郭佑栋;姚亚洲;唐振民 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210094 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 针对 媒体 检索 相似性 度量 方法 | ||
本发明公开了一种针对跨媒体检索的相似性度量方法,利用特征提取器提取输入样本及数据库样本的特征向量;利用Softmax函数将输入样本的特征向量以及数据库样本特征向量转化成概率特征;分别计算输入样本与数据库里每个样本的Cosine+值;将数据库样本按照输入样本与数据库中每个样本的Cosine+值从大到小排序,Cosine+值在余弦函数的基础上引入特征方差以表示样本典型性和代表性。本发明采用特征的方差来指代样本的典型性,鲁棒性和抗噪音能力高。
技术领域
本发明属于计算机视觉技术,具体为一种针对跨媒体检索的相似性度量方法。
背景技术
在大数据时代,随着如图像、文本、视频和音频等多媒体数据的快速增长以及广泛普及,用户的检索需求变得越来越多样灵活,传统的关键词检索已经越来越不能满足人们的需求。因此,跨媒体检索方法已经越来越有吸引力,它比单一媒体检索更加灵活方便,通过这种方式,用户可以通过输入任何媒体类型的查询,获得所有媒体类型的相关检索结果。例如,当用户发现了一张感兴趣的照片时,可以提交这张照片,并检索到相关的文本描述,图像,视频,音频叫声等信息,从而让用户在不知道手里的媒体样本的任何信息的情况下,可以方便快捷的获取到足够多的相关信息。跨媒体检索已经成为研究热点,其流程如图1所示。
跨媒体检索流程的最后步骤是要计算输入的样本特征与数据库里的样本特征之间的相似性,把计算出的相似性从近到远排序就是该输入在数据库里检索得到的结果。
现有的跨媒体检索中使用的相似性度量方法,一种是使用余弦距离度量相似性,用向量空间中两个向量夹角的余弦值作为衡量两个样本的特征间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。
另一种是使用欧氏距离度量相似性,欧氏距离是一个通常采用的距离定义,在二位和三位空间中是两点的直线距离,在高维空间中的欧式距离的就是两点之间的绝对距离。欧氏距离衡量的是空间各点的绝对距离,与各个点所在的位置坐标直接相关;而余弦距离衡量的是特征的夹角,更加体现在方向上的差异,而不是位置。余弦距离的效果往往要好于欧氏距离,因此余弦距离被更多的使用。
然而上述两种方法都存在忽视检索的特殊性以及准确率不高的问题,导致检索结果不够理想的问题。
发明内容
本发明的目的在于提供一种针对跨媒体检索的相似性度量方法。
实现本发明目的的技术解决方案为:一种针对跨媒体检索的相似性度量方法,具体步骤为:
步骤1:利用特征提取器提取输入样本及数据库样本的特征向量;
步骤2:利用Softmax函数将输入样本的特征向量以及数据库样本特征向量转化成概率特征;
步骤3:分别计算输入样本与数据库里每个样本的Cosine+值,具体公式为:
Cosine+(A,B)=Cosine(A,B)-α*var(B)*B[argmax(A)]
式中,A是输入样本的概率特征,B是数据库样本的概率特征,α是比例系数,Cosine(A,B)是输入样本的概率特征与数据库样本的概率特征的余弦相似度,var(B是数据库样本的概率特征的方差,B[argmax(A)]是数据库样本在输入样本的概率最大的类别处的概率;
步骤4、将数据库样本按照输入样本与数据库中每个样本的Cosine+值从大到小排序。
优选地,所述特征提取器为CNN模型或RNN模型。
优选地,将特征向量转化成概率特征的具体公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010519309.7/2.html,转载请声明来源钻瓜专利网。





