[发明专利]图片描述的生成方法、装置和计算机可读存储介质在审
申请号: | 201910078978.2 | 申请日: | 2019-01-28 |
公开(公告)号: | CN111488473A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 王晶;梅涛 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/33;G06F16/36;G06K9/62;G06N3/04 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 张雷;刘剑波 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 描述 生成 方法 装置 计算机 可读 存储 介质 | ||
本公开涉及一种图片描述的生成方法、装置和计算机可读存储介质,涉及人工智能技术领域。该方法包括:通过多类分类模型,提取图片流中各目标图片的第一特征;通过多实例分类模型或者多标签分类模型,提取各目标图片的第二特征;将第一特征和第二特征输入训练好的GAN模型的生成器,确定词表中各词的选词概率分布;选取选词概率分布中概率最大的词,生成各目标图片的句子描述,各目标图片的句子描述构成图片流的段落描述。本公开的技术方案能够描述的准确性。
技术领域
本公开涉及人工智能技术领域,特别涉及一种图片描述的生成方法、图片描述的生成装置和计算机可读存储介质。
背景技术
以有序的图片流作为输入,输出由多句话构成的故事描述(即,段落描述),是计算机视觉和自然语言处理领域的重要任务之一。
在相关技术中,可以基于检索的方式生成故事描述,即从现有的数据集中为图片流找到合适的故事描述;还可以基于RNN(Recurrent Neural Network,循环神经网络)将整个故事描述作为一个长句来学习。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:基于检索的方式只能从现有的数据集中找到最合适的故事描述;基于RNN生成长句的方式会造成学习障碍,从而导致生成的描述不准确。
鉴于此,本公开提出了一种图片描述的生成技术方案,能够提高描述的准确性。
根据本公开的一些实施例,提供了一种图片描述的生成方法,包括:通过多类分类模型,提取图片流中各目标图片的第一特征;通过多实例分类模型或者多标签分类模型,提取所述各目标图片的第二特征;将所述第一特征和所述第二特征输入训练好的GAN(Generative Adversarial Nets,生成对抗网络)模型的生成器,确定词表中各词的选词概率分布;选取所述选词概率分布中概率最大的词,生成所述各目标图片的句子描述,所述各目标图片的句子描述构成所述图片流的段落描述。
在一些实施例中,所述GAN模型的生成器包括第一RNN模型和第二RNN模型;所述确定词表中各词的选词概率分布包括:将所述第一特征输入所述第一RNN模型,生成所述各目标图片的主题向量;将所述第二特征和所述主题向量输入所述第二RNN模型,确定词表中各词的选词概率分布。
在一些实施例中,所述GAN模型的判别器包括第一分类器和第二分类器,所述第一分类器用于判断所述句子描述是否符合相应的目标图片的实际内容,所述第二分类器用于判断所述段落描述是否符合预先标注的段落样本的语言风格。
在一些实施例中,以所述GAN模型的生成器生成的句子描述和段落描述为负样本,以预先标注的句子样本和段落样本为正样本,对所述GAN模型的判别器进行训练。
在一些实施例中,根据所述句子描述中的各词和所述选词概率分布,对所述词表中的词进行采样,生成与所述各词相应的各训练样本句子;将所述各训练样本句子输入所述GAN模型的判别器,确定所述各训练样本句子的正类别概率;根据所述正类别概率,确定与所述各训练样本句子相应的各词的第一权值;根据所述各词的第一权值,更新所述GAN模型的生成器。
在一些实施例中,选取所述句子描述的一个词作为目标词,保留所述句子描述中排在所述目标词前面的各词作为所述训练样本句子中相应位置的词;将所述目标词输入所述GAN模型的生成器,确定所述词表中各词的选词概率分布;根据所述选词概率分布,对所述词表中的各词进行采样,以确定所述训练样本句子中排在所述目标词后面的各词。
在一些实施例中,根据所述各训练样本句子,生成与所述各词相应的训练样本段落;将所述训练样本段落输入所述GAN模型的判别器,确定所述各训练样本段落的正类别概率;根据所述各训练样本段落的正类别概率,确定与所述各训练样本段落相应的各词的第二权值;根据所述第二权值,更新所述GAN模型的生成器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910078978.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音频插孔连接器
- 下一篇:风道上盖件、风道支撑座及其形成方法和衣物处理装置