[发明专利]视觉问答方法、装置、电子设备和存储介质有效
申请号: | 202210424711.6 | 申请日: | 2022-04-20 |
公开(公告)号: | CN114707017B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 曹健健;李煜林;钦夏孟;姚锟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/532;G06F16/9032 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕朝蕙 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉 问答 方法 装置 电子设备 存储 介质 | ||
1.一种视觉问答方法,包括:
识别目标图像包括的文本,得到目标文本及所述目标文本在所述目标图像中的位置信息;
根据所述位置信息提取所述目标图像的图像特征,得到针对所述目标文本的视觉特征序列;
对根据所述目标文本和针对所述目标图像的问题文本得到的词序列进行编码,得到文本特征序列;以及
根据所述文本特征序列和所述视觉特征序列构成的第一特征序列,确定针对所述问题文本的答案文本,
其中,所述根据所述文本特征序列和所述视觉特征序列构成的第一特征序列,确定针对所述问题文本的答案文本包括:
采用基于自注意力机制的编码器对所述第一特征序列编码,得到编码后的第二特征序列;以及
根据所述第二特征序列,确定所述答案文本;
其中,所述目标文本包括第二数量个文本段;所述位置信息指示所述第二数量个文本段在所述目标图像中的第二数量个位置;所述词序列包括对所述第二数量个文本段分词得到的第一数量个第一词;所述文本特征序列包括与第一数量个所述第一词分别对应的第一数量个文本特征;所述视觉特征序列包括与所述第二数量个位置分别对应的第二数量个视觉特征;所述采用基于自注意力机制的编码器对所述第一特征序列编码,得到第二特征序列包括:
将所述第一特征序列输入所述编码器,得到初始编码特征序列;所述初始编码特征序列至少包括与第一数量个所述第一词分别对应的第一数量个第一特征及与第二数量个所述视觉特征分别对应的第二数量个第二特征;以及
采用注意力网络对第一数量个所述第一特征和第二数量个所述第二特征进行处理,得到所述第二特征序列。
2.根据权利要求1所述的方法,其中,所述词序列包括属于所述目标文本的第一数量个第一词;所述文本特征序列包括与第一数量个所述第一词分别对应的第一数量个文本特征;所述根据所述第二特征序列,确定所述答案文本包括:
采用第一预测网络对所述第二特征序列进行处理,得到针对所述答案文本的第一预测信息序列;所述第一预测信息序列至少包括与所述词序列中的每个词对应的第一预测信息,所述第一预测信息包括所述每个词属于所述答案文本的概率值;以及
根据与第一数量个所述第一词对应的第一数量个第一预测信息,确定所述答案文本。
3.根据权利要求2所述的方法,其中,所述根据所述第二特征序列,确定所述答案文本还包括:
采用第二预测网络对所述第二特征序列进行处理,得到针对起始字符的第二预测信息序列;所述第二预测信息序列至少包括与所述每个词对应的第二预测信息,所述第二预测信息包括所述每个词为所述答案文本的起始字符的概率值;
采用第三预测网络对所述第二特征序列进行处理,得到针对终止字符的第三预测信息序列;所述第三预测信息序列至少包括与所述每个词对应的第三预测信息,所述第三预测信息包括所述每个词为所述答案文本的终止字符的概率值;以及
针对第一数量个所述第一词,根据对应的第一数量个所述第一预测信息、第一数量个所述第二预测信息和第一数量个所述第三预测信息,确定所述答案文本。
4.根据权利要求1所述的方法,其中,所述根据所述位置信息提取所述目标图像的图像特征,得到针对所述目标文本的视觉特征序列包括:
采用图像特征提取网络提取所述目标图像的图像特征;
根据所述第二数量个文本段中的每个文本段在所述目标图像中的位置,确定所述图像特征中针对所述每个文本段的图像子特征,得到由针对所述第二数量个文本段的第二数量个图像子特征构成的图像子特征序列;以及
根据所述图像子特征序列,确定所述视觉特征序列。
5.根据权利要求1所述的方法,其中,所述根据所述图像子特征序列,确定所述视觉特征序列包括:
根据所述每个文本段在所述目标图像中的位置,确定针对所述每个文本段的第一位置子特征;以及
根据针对所述每个文本段的所述图像子特征和针对所述每个文本段的所述第一位置子特征,确定针对所述每个文本段的视觉特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210424711.6/1.html,转载请声明来源钻瓜专利网。