[发明专利]辅助视障人士视觉问答方法、装置、计算设备及存储介质在审
申请号: | 201911347611.2 | 申请日: | 2019-12-24 |
公开(公告)号: | CN113032535A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 邢彪;郑屹峰;张卷卷;陈维新;章淑敏;刘梦晗;林乐轩;郑远哲 | 申请(专利权)人: | 中国移动通信集团浙江有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/783;G06N3/04;G06N3/08 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 王广涛 |
地址: | 310016 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辅助 人士 视觉 问答 方法 装置 计算 设备 存储 介质 | ||
本发明实施例涉及人工智能技术领域,公开了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质,该方法包括:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士。通过上述方式,本发明实施例能够帮助视障人士更好的了解日常生活视觉信息。
技术领域
本发明实施例涉及人工智能技术领域,具体涉及一种辅助视障人士视觉问答方法、装置、计算设备及存储介质。
背景技术
中国视力障碍人数有7551万,其中盲人达到1400万。视障人士对于了解日常生活视觉信息的需求非常迫切,但是目前视障人群暂无有效手段来进行视觉问答。
发明内容
鉴于上述问题,本发明实施例提供了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种辅助视障人士视觉问答方法,所述方法包括:获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本;分别对所述视频帧图像以及所述问题文本进行预处理;根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答;将所述回答转换成声音反馈给视障人士。
在一种可选的方式中,所述分别对所述视频帧图像以及所述问题进行预处理,包括:将所述视频帧图像中的每一帧图像进行归一化处理;将所述问题文本进行文本清洗和文本序列化,并索引化为索引序列。
在一种可选的方式中,所述将所述视频帧图像中的每一帧图像进行归一化处理,包括:从所述视频帧图像中提取每一帧图像,并将所述图像转换为448*448大小;对每一帧图像的每一个像素值按比例压缩至0到1的范围内;将每一帧图片的像素值分别对应减去全局均值图片的像素值,实现归一化。
在一种可选的方式中,所述根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答之前,包括:获取历史局数据集,包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答;对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理;根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。
在一种可选的方式中,所述根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型,包括:将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型;应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答;应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量;应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度,找到使目标函数最小的权重值,得到所述注意力视觉问答模型的收敛的权重。
在一种可选的方式中,所述应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答,包括:应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示,编码成预设长度的特征向量,输出形状为512*14*14的图像特征向量矩阵;应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量;应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重,并计算所述图像特征向量与对应的所述注意力权重的乘积之和;应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。
在一种可选的方式中,所述应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射,并提取并输出问题文本特征向量,包括:应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量;应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司;中国移动通信集团有限公司,未经中国移动通信集团浙江有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911347611.2/2.html,转载请声明来源钻瓜专利网。