[发明专利]视觉辅助方法、装置及计算机可读存储介质在审
申请号: | 202110106026.4 | 申请日: | 2021-01-26 |
公开(公告)号: | CN114792393A | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 屈杨森 | 申请(专利权)人: | TCL科技集团股份有限公司 |
主分类号: | G06V20/10 | 分类号: | G06V20/10;A61H3/06;G10L13/02 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 李红艳 |
地址: | 516006 广东省惠州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉 辅助 方法 装置 计算机 可读 存储 介质 | ||
1.一种视觉辅助方法,其特征在于,包括:
获取目标场景数据;
将所述目标场景数据输入预设场景描述模型,得到用于描述目标场景的场景描述信息;
根据所述场景描述信息生成语音信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述场景描述信息生成语音信息,包括:
根据所述场景描述信息生成导航信息;
根据所述导航信息生成所述语音信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述场景描述信息生成导航信息,包括:
根据所述场景描述信息,确定所述目标场景中与预设参考物的信息匹配的物体的信息,得到目标参考物信息;
根据所述目标参考物信息确定目标参考物的位置信息;
获取用户位置信息;
根据所述目标参考物的位置信息和所述用户位置信息确定行进方向信息;
根据所述行进方向信息生成所述导航信息。
4.根据权利要求1所述的方法,其特征在于,所述目标场景数据包括目标场景图像,所述场景描述模型包括图像编码器、句子生成器和鉴别器,所述场景描述信息包括第一文本信息;所述将所述目标场景数据输入预设场景描述模型,得到用于描述目标场景的场景描述信息,包括:
将所述目标场景图像输入所述图像编码器进行编码,生成目标场景图像的图像特征;
将所述图像特征输入所述句子生成器,生成图像描述语句;
将所述图像描述语句输入所述鉴别器进行鉴别,并将鉴别结果输入所述句子生成器进行图像和句子重建,生成所述第一文本信息。
5.根据权利要求4所述的方法,其特征在于,所述目标场景数据包括目标场景视频,所述场景描述模型包括视频编码器、视频解码器和重构器,所述场景描述信息包括第二文本信息;所述将所述目标场景数据输入预设场景描述模型,得到用于描述目标场景的场景描述信息,包括:
将所述目标场景视频的各个帧图像输入所述视频编码器,得到所述各个帧图像对应的图像特征;
将所述各个帧图像对应的视频特征输入所述视频解码器,得到所述各个帧图像对应的隐藏状态和初始视频描述句;
将所述各个帧图像对应的隐藏状态输入所述重构器,得到全局视频特征以及重构损失;
将所述全局视频特征作为所述目标场景视频输入所述视频编码器,返回执行步骤所述将所述目标场景视频的各个帧图像输入所述视频编码器,得到所述各个帧图像对应的图像特征,直至所述重构损失小于预设阈值,将得到的初始视频描述句作为所述第二文本信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述场景描述信息生成语音信息,包括:
将所述第一文本信息和所述第二文本信息进行特征融合,得到融合文本信息;
将所述融合文本信息输入预设文语转换模型,得到所述语音信息。
7.根据权利要求6所述的方法,其特征在于,所述将所述第一文本信息和所述第二文本信息进行特征融合,得到融合文本信息,包括:
将所述第一文本信息输入第一文本编码器,得到第一文本特征;
将所述第二文本信息输入第二文本编码器,得到第二文本特征;
将所述第一文本特征与所述第二文本特征进行特征融合,得到融合特征;
将所述融合特征输入文本解码器,得到所述融合文本信息。
8.如权利要求6所述的方法,其特征在于,所述文语转换模型包括编码器、解码器和波形网络模块,所述将所述融合文本信息输入预设文语转换模型,得到所述语音信息,包括:
将所述融合文本信息输入所述编码器,得到文本特征信息;
将所述文本特征信息输入所述解码器,得到梅尔频谱信息;
将所述梅尔频谱信息输入所述波形网络模块,得到所述语音信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL科技集团股份有限公司,未经TCL科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110106026.4/1.html,转载请声明来源钻瓜专利网。