[发明专利]一种视觉问答方法、装置、电子设备、介质及程序产品在审
申请号: | 202111665541.2 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114444448A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 王若楠;王小捷;江会星;武威 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 王婷婷 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视觉 问答 方法 装置 电子设备 介质 程序 产品 | ||
1.一种视觉问答方法,其特征在于,所述方法包括:
获得图像和原始问题;
根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,直到所述原始问题中的各个词语所关联的子问题都已解答为止,停止子问题生成,其中,每一轮子问题是根据所述图像、所述原始问题、全部历史子问题和全部历史子问题的答案生成的;
根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案。
2.根据权利要求1所述的方法,其特征在于,根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案,包括:
将所述图像的原始特征,确定为所述图像在第一轮的特征;
以每一轮为当前轮,根据上一轮子问题的特征,更新所述图像在当前轮的特征;
根据所述原始问题的特征,更新所述图像在最后一轮的特征,得到所述图像的最终特征;
根据所述原始问题的特征和所述图像的最终特征,生成所述原始问题的答案。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据第一轮子问题的特征和所述图像的原始特征,生成所述第一轮子问题的答案;
以每一轮为当前轮,根据当前轮子问题的特征,以及所述图像在当前轮的特征和在上一轮的特征,生成所述当前轮子问题的答案。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得样本图像和样本原始问题;
生成所述样本原始问题的多个子样本问题,并根据所述样本图像,生成所述样本原始问题以及所述多个子样本问题各自的正确答案,以构建训练样本;
将所述样本图像和所述样本原始问题输入预设模型,得到所述预设模型中根据所述样本原始问题中的各个词语逐轮生成的多个预测子问题,直到所述样本原始问题中的各个词语所关联的预测子问题的预测答案都已生成为止,停止预测子问题生成,其中,每一轮预测子问题是根据所述样本图像、所述样本原始问题、全部历史预测子问题和全部历史预测子问题的预测答案生成的;
根据所述样本原始问题以及所述多个子预测问题各自的正确答案,对所述预设模型进行训练,得到视觉问答模型;
根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案,包括:
将所述图像和所述原始问题输入所述视觉问答模型,以使所述视觉问答模型逐轮生成所述原始问题的多个子问题,进而输出所述原始问题的答案。
5.根据权利要求4所述的方法,其特征在于,根据所述样本原始问题以及所述多个子预测问题各自的正确答案,对所述预设模型进行训练,得到视觉问答模型,包括:
以每一轮为当前轮,根据当前轮预测子问题的正确答案和所述预设模型在当前轮输出的预测答案,得到子问题损失值,以更新所述预设模型的模型参数;
根据所述样本原始问题的正确答案和所述预设模型输出的针对所述样本原始问题的预测答案,得到样本原始问题损失值,以更新所述预设模型的模型参数;
在满足训练结束条件时,将训练结束的预设模型确定为所述视觉问答模型。
6.根据权利要求5所述的方法,其特征在于,所述预设模型输出的针对所述样本原始问题的预测答案,是按照以下步骤生成的:
以每一轮为当前轮,根据上一轮预测子问题的特征,更新所述样本图像在当前轮的预测特征;
根据所述样本原始问题的特征,更新所述样本图像在最后一轮的预测特征,得到所述样本图像的最终预测特征;
根据所述样本原始问题的特征和所述样本图像的最终预测特征,生成所述样本原始问题的预测答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111665541.2/1.html,转载请声明来源钻瓜专利网。