[发明专利]一种基于深度学习的多样化图像描述语句生成技术有效

申请号：	202110758735.0	申请日：	2021-07-05
公开（公告）号：	CN113535999B	公开（公告）日：	2023-05-26
发明（设计）人：	任磊;孟子豪;王涛	申请（专利权）人：	北京航空航天大学
主分类号：	G06F16/51	分类号：	G06F16/51;G06N3/0464;G06N3/08
代理公司：	北京知汇林知识产权代理事务所(普通合伙) 11794	代理人：	杨华
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习多样化图像描述语句生成技术
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的多样化图像描述语句生成方法，其特征在于：1)获取真实世界的图像文件；2)对于一个图像文件，首先要进行矩阵化，矩阵中，每个元素即代表图片对应位置的内容信息；矩阵的个数、以及不同矩阵相同位置数值的关系具体取决于图片的色彩类型；3)为了加速图像描述生成模型的收敛速度，要对矩阵化的图像描述文件进行数据映射到[0-1]之间以及标准化；4)标准化的图像矩阵输入深度卷积神经网络；5)通过深度卷积神经网络多层次的特征提取，得到图像的高维语义特征；6)图像高维语义特征输入到编码器中，通过多层次的编码，得到更加抽象的深度图像语义特征；7)深度图像语义特征输入到多风格解码器，通过设计的多风格参数矩阵，最大化参数矩阵之间的欧式距离保证模型多风格输出的差异性，以及共享除了参数矩阵之间的其余参数，以对文本数据中的一般事实描述进行建模；8)通过改变多风格解码器的参数矩阵，以实现生成多风格图像描述的效果。

2.基于权利要求1所述的一种基于深度学习的多样化图像描述语句生成方法，其特征在于：可以取6个或者12个编码块，堆叠的深层编码块和解码块有利于模型提取更加丰富图像和文本的深层语义特征；解码块包括多风格解码器多头自注意力，相加和归一化，多风格编码器解码器多头自注意力，相加和归一化，前馈神经网络，相加和归一化六个部分组成；其中，解码块的多头自注意力部分包含由三个不同风格的参数矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110758735.0/1.html，转载请声明来源钻瓜专利网。

上一篇：节目购买方法、装置、设备和计算机可读存储介质
下一篇：应急状态分级方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的多样化图像描述语句生成技术有效

专利文献下载