[发明专利]训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置在审
申请号: | 201711250961.8 | 申请日: | 2017-12-01 |
公开(公告)号: | CN110019889A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 董国盛;周泽南;苏雪峰;佟子健 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/58 | 分类号: | G06F16/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练特征 特征提取模型 文本特征 相关装置 训练样本 样本查询 样本图片 查询词 文本 提取图像特征 图片 特征向量 图像特征 自动学习 映射 准确率 抽取 采集 学习 | ||
1.一种训练特征提取模型的方法,其特征在于,包括:
采集训练样本,所述训练样本包括样本图片与样本查询词;
从所述样本图片中提取图像特征;
从所述样本查询词中提取文本特征;
根据所述图像特征与所述文本特征训练特征提取模型。
2.根据权利要求1所述的方法,其特征在于,所述训练样本包括正训练样本、负训练样本;
所述正训练样本中的样本图片与样本查询词具有相关性;
所述负训练样本中的样本图片与样本查询词不具有相关性。
3.根据权利要求2所述的方法,其特征在于,所述采集训练样本,包括:
获取输入的查询词,将所述查询词作为所述正训练样本的样本查询词;
获取所述查询词对应的图片数据;
基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片。
4.根据权利要求3所述的方法,其特征在于,所述基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片,包括:
查询所述图片数据基于所述查询词进行点击的点击率和/或进行展现的展现率;
查询所述查询词所属的词类别,确定所述词类别对应的点击阈值和/或展现阈值;
判断所述点击率和/或所述展现率是否大于所述点击阈值和/或所述展现阈值;若是,则确定所述样本图片数据为所述正训练样本的样本图片。
5.根据权利要求2所述的方法,其特征在于,所述采集训练样本,包括:
将所述正训练样本的样本查询词设置为所述负训练样本的样本查询词;
将所述正训练样本中、除所述样本查询词对应的样本图片之外其他样本图片,设置为所述负训练样本中的样本图片。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述图像特征与所述文本特征训练特征提取模型,包括:
设置损失函数;
将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值;
判断所述损失值是否满足预设的迭代条件;
若是,则确定所述特征提取模型训练完成;
若否,则更新所述特征提取模型的参数,执行所述将所述图像特征与所述文本特征输入至所述损失函数中,以计算相关性特性模型的损失值。
7.一种基于特征提取模型计算图片与查询词相关性系数的方法,其特征在于,包括:
获取目标查询词和目标图片;
将所述目标图片输入至预设的特征提取模型中,以输出图像特征;
将所述目标查询词输入至所述特征提取模型中,以输出文本特征;
根据所述图像特征与所述文本特征计算所述目标图片与所述目标查询词之间的相关性系数。
8.根据权利要求7所述的方法,其特征在于,所述根据所述图像特征与所述文本特征计算所述目标图片与所述目标查询词之间的相关性系数,包括:
对所述图像特征进行二进制转换,获得第一目标特征;
对所述文本特征进行二进制转换,获得第二目标特征;
计算所述第一目标特征与所述第二目标特征之间的汉明距离,作为所述目标图片与所述目标查询词之间的相关性系数。
9.根据权利要求7或8所述的方法,其特征在于,还包括:
根据所述相关性系数确定所述目标图片与所述目标查询词之间的相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711250961.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索方法及装置
- 下一篇:一种移动终端的照片匹配方法