[发明专利]一种基于深度学习的多样化图像描述语句生成技术有效
| 申请号: | 202110758735.0 | 申请日: | 2021-07-05 |
| 公开(公告)号: | CN113535999B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 任磊;孟子豪;王涛 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F16/51 | 分类号: | G06F16/51;G06N3/0464;G06N3/08 |
| 代理公司: | 北京知汇林知识产权代理事务所(普通合伙) 11794 | 代理人: | 杨华 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 多样化 图像 描述 语句 生成 技术 | ||
1.一种基于深度学习的多样化图像描述语句生成方法,其特征在于:1)获取真实世界的图像文件;2)对于一个图像文件,首先要进行矩阵化,矩阵中,每个元素即代表图片对应位置的内容信息;矩阵的个数、以及不同矩阵相同位置数值的关系具体取决于图片的色彩类型;3)为了加速图像描述生成模型的收敛速度,要对矩阵化的图像描述文件进行数据映射到[0-1]之间以及标准化;4)标准化的图像矩阵输入深度卷积神经网络;5)通过深度卷积神经网络多层次的特征提取,得到图像的高维语义特征;6)图像高维语义特征输入到编码器中,通过多层次的编码,得到更加抽象的深度图像语义特征;7)深度图像语义特征输入到多风格解码器,通过设计的多风格参数矩阵,最大化参数矩阵之间的欧式距离保证模型多风格输出的差异性,以及共享除了参数矩阵之间的其余参数,以对文本数据中的一般事实描述进行建模;8)通过改变多风格解码器的参数矩阵,以实现生成多风格图像描述的效果。
2.基于权利要求1所述的一种基于深度学习的多样化图像描述语句生成方法,其特征在于:可以取6个或者12个编码块,堆叠的深层编码块和解码块有利于模型提取更加丰富图像和文本的深层语义特征;解码块包括多风格解码器多头自注意力,相加和归一化,多风格编码器解码器多头自注意力,相加和归一化,前馈神经网络,相加和归一化六个部分组成;其中,解码块的多头自注意力部分包含由三个不同风格的参数矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110758735.0/1.html,转载请声明来源钻瓜专利网。





