[发明专利]基于多模态的场馆识别方法、系统、设备及存储介质在审
申请号: | 202210350617.0 | 申请日: | 2022-04-02 |
公开(公告)号: | CN114756702A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 彭佳慧;成丹妮;罗超;邹宇;李巍 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F16/55;G06F16/583;G06F16/33;G06Q50/14 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 钟宗 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 场馆 识别 方法 系统 设备 存储 介质 | ||
1.一种基于多模态的场馆识别方法,其特征在于,包括以下步骤:
将攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练一多模态模型,并获得每个场馆类别标签对应的词向量;
将待识别图像输入所述多模态模型中的图片编码器,提取图片向量,根据所述图片向量与词向量的相似性参数来判断筛选出待确认图像;
将所述待确认图像输入经过训练的神经网络,输出所述待识别图像对应的场馆类别标签。
2.如权利要求1所述的基于多模态的场馆识别方法,其特征在于,所述将攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练一多模态模型,并获得每个场馆类别标签对应的词向量,包括:
将攻略文档中的攻略图片和所述攻略图片对应的介绍文本进行配对,获得图文对数据集;
通过所述图文对数据集训练一具有图片编码器和文本编码器的多模态模型;
通过所述文本编码器获得每个场馆类别标签对应的词特征以及相关的词向量。
3.如权利要求2所述的基于多模态的场馆识别方法,其特征在于,所述将攻略文档中的攻略图片和所述攻略图片对应的介绍文本进行配对,获得图文对数据集,包括:
将所述攻略文档进行自然语义识别,获得自然段落的至少一第一场馆类别标签;
对所述攻略中的图片进行图片识别获得第二场馆类别标签;
将与所述图片相邻的上文以及下文各N个自然段中的第一场馆类别标签满足所述第二场馆类别标签的自然段集合作为所述图片的对应的介绍文本,N≤3;
将每个所述攻略图片与各自对应的介绍文本配对后形成图文对数据集。
4.如权利要求1所述的基于多模态的场馆识别方法,其特征在于,所述将待识别图像输入所述多模态模型中的图片编码器,提取图片向量,根据所述图片向量与词向量的相似性参数来判断筛选出待确认图像,包括:
所述将待识别图像输入所述多模态模型中的图片编码器,提取所述待识别图像的图片特征以及相关的图片向量;
将所述词向量与至少一图片向量相乘获得相似性参数满足预设阈值,则将所述待识别图像作为待确认图像。
5.如权利要求1所述的基于多模态的场馆识别方法,其特征在于,训练所述神经网络的步骤,包括:
将所述待确认图像输入所述多模态模型中的图片编码器进行预处理,将所述待确认图像的尺寸调整为224*224;
将所述多模态模型的结尾添加用于分类的全连接层模块作为神经网络;
通过所述攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练所述神经网络。
6.如权利要求5所述的基于多模态的场馆识别方法,其特征在于,所述全连接层模块包括两层全连接层、连接在所述全连接层之间的丢弃层以及归一化层。
7.如权利要求5所述的基于多模态的场馆识别方法,其特征在于,所述通过所述攻略文档中的攻略图片和所述攻略图片对应的介绍文本训练所述神经网络,包括:在训练时,损失函数采取交叉熵代价函数,并叠加标签平滑,迭代模型的损失函数,直到在验证集的测试效果最优。
8.如权利要求1所述的基于多模态的场馆识别方法,其特征在于,还包括对将发布的攻略文档中的介绍文本的至少一自然段提取词向量,获得与所述词向量的相似性参数最高的若干攻略图片作为待选图片集合,将所述待选图片集合中互动总数最高的攻略图片作为所述自然段的配图。
9.如权利要求8所述的基于多模态的场馆识别方法,其特征在于,所述互动总数包括所述待选图片集合中每个攻略图片被在线观看、点赞、下载的总次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210350617.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种临床医学用营养科营养液摄入装置
- 下一篇:一种方便拿取的会计档案管理装置