[发明专利]中文图文检索方法及中文图文检索的数据处理方法在审
| 申请号: | 202211328806.4 | 申请日: | 2022-10-26 |
| 公开(公告)号: | CN115687664A | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 林俊旸;杨安;潘俊树;周畅;张一昌;门睿 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
| 主分类号: | G06F16/432 | 分类号: | G06F16/432;G06F16/483;G06F16/9532;G06V10/40;G06V10/82;G06F40/289;G06N3/045;G06N3/084 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 金鹏 |
| 地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文 图文 检索 方法 数据处理 | ||
1.一种中文图文检索方法,包括:
获取源对象,其中,所述源对象为源中文文本或源图像;
将所述源对象输入图文表征组件,对所述源对象进行特征提取,获得所述源对象的对象特征,其中,所述图文表征组件基于样本中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习训练得到;
利用对象生成组件,基于所述对象特征进行图文转换,生成所述源对象对应的目标对象。
2.根据权利要求1所述的方法,在所述将所述源对象输入图文表征组件,对所述源对象进行特征提取,获得所述源对象的对象特征之前,还包括:
获取样本集,其中,所述样本集包括多个样本中文图文对,所述样本中文图文对包括样本图像和样本中文文本;
提取任一样本中文图文对中的第一样本数据,其中,所述第一样本数据为样本图像或样本中文文本;
将所述第一样本数据输入图文表征组件,对所述第一样本数据进行特征提取,获得所述第一样本数据的数据特征,其中,所述图文表征组件基于预训练中文图文对,对图像编码器输出的图像特征和文本编码器输出的文本特征进行对比学习预训练得到;
利用对象生成组件,基于所述第一样本数据的数据特征进行图文转换,得到所述第一样本数据对应的预测数据;
基于所述预测数据和第二样本数据,对所述对象生成组件进行训练,获得训练得到的图文检索模型的模型参数,其中,所述第二样本数据为所述任一样本中文图文对中所述第一样本数据以外的另一样本数据,所述图文检索模型包括所述图文表征组件和所述对象生成组件。
3.根据权利要求1或2所述的方法,还包括:
获取预训练集,其中,所述预训练集包括多个预训练中文图文对,所述预训练中文图文对包括预训练图像和预训练中文文本;
利用图像编码器,提取各所述预训练图像的图像特征,并利用文本编码器,提取各所述预训练中文文本的文本特征;
根据各所述图像特征及各所述文本特征,对所述图像编码器和所述文本编码器进行对比学习训练,获得图文表征组件。
4.根据权利要求3所述的方法,在所述根据各所述图像特征及各所述文本特征,对所述图像编码器和所述文本编码器进行对比学习训练,获得图文表征组件之前,还包括:
对各所述图像特征及各所述文本特征进行预处理,其中,所述预处理包括投影运算和/或标准化操作。
5.根据权利要求3所述的方法,所述根据各所述图像特征及各所述文本特征,对所述图像编码器和所述文本编码器进行对比学习训练,获得图文表征组件,包括:
基于所述预训练集,构建正例对和负例对;
基于所述正例对和负例对中预训练图像的图像特征、预训练中文文本的文本特征,对所述图像编码器和所述文本编码器进行对比学习训练,获得图文表征组件。
6.根据权利要求5所述的方法,所述基于所述正例对和负例对中预训练图像的图像特征、预训练中文文本的文本特征,对所述图像编码器和所述文本编码器进行对比学习训练,获得图文表征组件,包括:
根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算所述第一预训练图像的相似度分布,其中,第一预训练中文文本与所述第一预训练图像属正例对,所述第二预训练中文文本与所述第一预训练图像属负例对,所述第一预训练图像为任一预训练图像;
根据所述第一预训练中文文本的文本特征、所述第一预训练图像的图像特征以及第二预训练图像的图像特征,计算所述第一预训练中文文本的相似度分布,其中,所述第二预训练图像与所述第一预训练中文文本属负例对;
基于所述第一预训练图像的相似度分布和所述第一预训练中文文本的相似度分布,计算对比学习损失值;
基于所述对比学习损失值,对所述图像编码器和所述文本编码器进行调参,并返回执行所述根据第一预训练图像的图像特征、第一预训练中文文本的文本特征以及第二预训练中文文本的文本特征,计算所述第一预训练图像的相似度分布的步骤,直至达到预设训练停止条件,获得训练后的所述图像编码器和所述文本编码器组成的图文表征组件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211328806.4/1.html,转载请声明来源钻瓜专利网。





