[发明专利]一种基于深度强化学习自适应式生成图像描述的方法在审
申请号: | 202010550939.0 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111783852A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 李建强;吴敬怡;董大强;冯慧 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 自适应 生成 图像 描述 方法 | ||
一种基于深度强化学习自适应式生成图像描述的方法及图像描述技术领域,提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息;如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大,可进行自适应的比重修正。本发明使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息;采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重,使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。
技术领域
本发明涉及图像描述技术领域,具体是一种基于深度强化学习自适应式生成图像描述的方法。
背景技术
图像描述技术可以根据输入机器的图像自动生成人类可理解的文字描述。该技术要求模型不仅能够识别图片中的物体还要理解物体之间的关系,然后以自然语言的方式自动阐述图像特征。图像描述在标注图像、婴幼儿早教、辅助医生临床诊断等方面有重大研究意义。
早期的图像描述工作大多基于检索和语义模板的方法,人们无法有效的提取图像特征,生成的句子描述缺乏灵活性,且不能进行泛化。近些年随着计算机视觉和自然语言处理技术的不断发展,目前大多数图像描述问题基于“编码—解码”框架进行处理。JunhuaMao等人第一次将“编码—解码”框架应用于图像描述问题,通过卷积神经网络(Convolutional Neural Networks,CNN)提取图像特征,后经过递归神经网络(RecurrentNeural Network,RNN)生成图像描述;Xu等人引入注意力机制,使在生成图像描述时更关注图像显著区域来提升图像描述工作性能;Jiasen Lu等人提出一种哨兵机制使得模型在生成下一个单词时利用“哨兵”控制视觉信息和语义信息各自占的比重。
当前这些方法在生成下一个单词时不能够科学的决策是否利用视觉信息,且在利用注意力机制生成下一个单词时无法修正视觉信息的比重。
发明内容
本发明所要解决的技术问题是:提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息;如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大,可进行自适应的比重修正。
为实现上述目的,本发明采用一种基于深度强化学习自适应式生成图像描述的技术方案,具体步骤如下:
步骤1:将数据分为训练集和测试集,训练集由图像及其相应的描述组成,测试集由图像组成;
步骤2:将训练数据集的图像输入卷积神经网络提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述;若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练;
步骤8:将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010550939.0/2.html,转载请声明来源钻瓜专利网。