[发明专利]多语言图像标题生成模型在审
申请号: | 202110432894.1 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113077010A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 艾山·吾买尔;张大任;早克热·卡德尔;买合木提·买买提;吐尔根·依布拉音;汪烈军;宜年;石瑞;郭一贤 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F40/58;G06F40/49;G06F40/51 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 盛君梅 |
地址: | 830046 新疆维*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 图像 标题 生成 模型 | ||
本发明公开了一种多语言图像标题生成模型,涉及信息技术领域,该多语言图像标题生成模型基于完全自注意力结构先将图像分割成固定大小的小块,然后将这些小块的线性投影连同它们的图像位置一起输入变压器的。然后剩下的步骤就是一个干净的和标准的Transformer编码器和解码器。在图像patch的嵌入中加入位置嵌入,通过不同的策略在全局范围内保留空间/位置信息。尝试了不同的空间信息编码方法,包括无位置信息编码、1D/2D位置嵌入编码和相对位置嵌入编码。
技术领域
本发明涉及信息技术领域,特别涉及一种多语言图像标题生成模型。
背景技术
现有的图像标题生成方法是使用编码器解码器结构,此结构的输入是一幅图像,而输出则是一段描述该图像内容的文字。编码器部分是把图像编码成为一个中间向量,解码器将这个中间向量解码成该图像的描述性文字。图像内容的向量表示其实就是这其中的桥梁,也就是编码器的输出,后面解码器输出的描述性文字的准确性就是由这个桥梁的质量所决定的。因此,要想取得良好的任务效果,必要条件就是有一个良好的提取图像特征的方法。
发明内容
本发明所要解决的技术问题是提供一种多语言图像标题生成模型,搭建多语言数据集,构建单语言图像标题生成模型,构建多语言图像标题生成模型。
为实现上述目的,本发明提供以下的技术方案:
该多语言图像标题生成模型基于完全自注意力结构先将图像分割成固定大小的小块,然后将这些小块的线性投影连同它们的图像位置一起输入变压器的。然后剩下的步骤就是一个干净的和标准的Transformer编码器和解码器。在图像patch的嵌入中加入位置嵌入,通过不同的策略在全局范围内保留空间/位置信息。尝试了不同的空间信息编码方法,包括无位置信息编码、1D/2D位置嵌入编码和相对位置嵌入编码。与一维位置嵌入相比,二维位置嵌入并没有带来显著的性能提升。与基于完全自注意力结构的Transformer相比,混合结构是将卷积神经网络提取出的特征向量作为标准Transformer输入,其他方面基本类似。纯Transformer架构在大小和计算规模上都比传统的CNNs更具效率和可扩展性,深度学习相关的图像标题生成方法的发展离不开包含成对图像标题的公开数据集。针对多语言数据集稀缺的情况,对图像标题生成领域的小型通用数据集Flickr8k进行多语言标注,为了把英语的数据集扩展为多语言的数据集,以Flickr8k数据集作为基准,多语言数据集都直接或间接来自Flickr8K的原始英文翻译,但仅通过公开翻译网页进行机器翻译无法保证多语言数据集质量,因此对数据集进行了一系列校正操作以保证数据集质量。
采用以上技术方案的有益效果是:该多语言图像标题生成模型提出了单编码器多解码器多语言联合训练图像标题生成模型以及单编码器单解码器统一多语言图像标题生成模型,在图像标题生成质量及资源占用上对比单语言有所提升。针对多语言集外词过多的情况,本文提出基于字节对编码切分的多语言图像标题生成模型,针对多语言联合训练过程过语言差异过大导致收敛速度慢且忽视语言间语音相似性的情况,本文提出多语言拉丁化图像标题生成模型。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
图1是三种激活函数图;
图2是原始软注意力与改进软注意力结构图;
图3是两种不同的注意力模型结构图;
图4是多任务学习结构图。
具体实施方式
下面结合附图详细说明该多语言图像标题生成模型的优选实施方式。
图1至图4出示该多语言图像标题生成模型的具体实施方式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110432894.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序