[发明专利]一种视觉问答方法、装置、电子设备、介质及程序产品在审
申请号: | 202111665541.2 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114444448A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 王若楠;王小捷;江会星;武威 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 王婷婷 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视觉 问答 方法 装置 电子设备 介质 程序 产品 | ||
本申请提供了一种视觉问答方法、装置、电子设备、介质及程序产品,涉及视觉问答技术领域,旨在提供一种自适应推理步数、推理过程可解释性强的视觉问答方法。所述方法包括:获得图像和原始问题;根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,直到所述原始问题中的各个词语所关联的子问题都已解答为止,停止子问题生成,其中,每一轮子问题是根据所述图像、所述原始问题、全部历史子问题和全部历史子问题的答案生成的;根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案。
技术领域
本申请涉及视觉问答技术领域,特别是涉及一种视觉问答方法、装置、电子设备、介质及程序产品。
背景技术
视觉问答是指针对一张图片和一个图片相关的自然语言问题,生成自然语言形式的答案,其中融合了自然语言处理、计算机视觉、知识表示学习等多学科知识。
相关技术中的视觉问答方法,对于简单和困难的问题进行相同步数的推理,存在一定的不合理性;且推理过程缺乏可解释性,对于复杂问题难以定位发生错误的原因。
发明内容
鉴于上述问题,本发明实施例提供了一种视觉问答方法、装置、电子设备、介质及程序产品,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面,提供了一种视觉问答方法,所述方法包括:
获得图像和原始问题;
根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,直到所述原始问题中的各个词语所关联的子问题都已解答为止,停止子问题生成,其中,每一轮子问题是根据所述图像、所述原始问题、全部历史子问题和全部历史子问题的答案生成的;
根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案。
可选地,根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案,包括:
将所述图像的原始特征,确定为所述图像在第一轮的特征;
以每一轮为当前轮,根据上一轮子问题的特征,更新所述图像在当前轮的特征;
根据所述原始问题的特征,更新所述图像在最后一轮的特征,得到所述图像的最终特征;
根据所述原始问题的特征和所述图像的最终特征,生成所述原始问题的答案。
可选地,所述方法还包括:
根据第一轮子问题的特征和所述图像的原始特征,生成所述第一轮子问题的答案;
以每一轮为当前轮,根据当前轮子问题的特征,以及所述图像在当前轮的特征和在上一轮的特征,生成所述当前轮子问题的答案。
可选地,所述方法还包括:
获得样本图像和样本原始问题;
生成所述样本原始问题的多个子样本问题,并根据所述样本图像,生成所述样本原始问题以及所述多个子样本问题各自的正确答案,以构建训练样本;
将所述样本图像和所述样本原始问题输入预设模型,得到所述预设模型中根据所述样本原始问题中的各个词语逐轮生成的多个预测子问题,直到所述样本原始问题中的各个词语所关联的预测子问题的预测答案都已生成为止,停止预测子问题生成,其中,每一轮预测子问题是根据所述样本图像、所述样本原始问题、全部历史预测子问题和全部历史预测子问题的预测答案生成的;
根据所述样本原始问题以及所述多个子预测问题各自的正确答案,对所述预设模型进行训练,得到视觉问答模型;
根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111665541.2/2.html,转载请声明来源钻瓜专利网。