[发明专利]一种基于深度注意力机制的图片新闻封面自动选择方法有效

专利信息
申请号: 201811123947.6 申请日: 2018-09-26
公开(公告)号: CN109460483B 公开(公告)日: 2021-05-04
发明(设计)人: 毛先领;唐翼琨;史学文;黄河燕 申请(专利权)人: 北京理工大学
主分类号: G06F16/53 分类号: G06F16/53;G06F16/951;G06K9/62;G06N3/08
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王民盛
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于深度注意力机制的图片新闻封面自动选择方法,属于计算机应用技术领域。本方法通过对训练集中的图片进行特征提取,将输入的图片表示成向量,将其作为深度注意力模型的输入,输出为同一条新闻所有图片的注意力值的加权平均;用该加权平均的值和图片的向量表示作为输入,训练一个分类器,通过开发集调整模型的参数。与现有方法相比,本发明方法在不需要人工干预的情况下,可以为图片新闻自动选择封面,可以为工作人员节省很多时间和精力,也可以为传媒公司节约成本。此外,在训练集、开发集和测试集数据相同的情况下,本发明与基于随机算法的图片新闻封面选择方法和基于SVM的图片新闻封面选择方法相比,准确率评测指标有明显提升。
搜索关键词: 一种 基于 深度 注意力 机制 图片 新闻 封面 自动 选择 方法
【主权项】:
1.一种基于深度注意力机制的图片新闻封面自动选择方法,其特征在于,包括以下步骤:步骤一,进行相关定义,具体如下:定义1:训练集,指用于训练的图片新闻的数据集合,记为Tran;定义2:开发集,指在模型训练过程中用于特征函数参数调优的数据集合,记为Dev;定义3:测试集,指用于测试的图片新闻的数据集合,记为Test;定义4:输入图片,特指图片新闻中的图片,用像素矩阵表示;一条图片新闻中,第i张图片记为Ii定义5:图片特征提取,将输入图片I表示成固定维度向量的模型函数,记为f;其中,一条图片新闻中,第i张图片的向量表示记为pi,即pi=f(Ii);定义6:深度注意力机制,松散地基于人类的视觉注意机制,指在选择图片新闻的封面时按照高注意力聚焦在某张或某几张图片上,并以低注意力感知其他图片的模式,通过训练模型,不断地调整聚焦的图片;定义7:深度注意力机制的query,深度注意力模型的一个输入向量,记为q;query为需要被分类的图片特征向量;定义8:对齐模型,衡量深度注意力机制输入端各图片对所在图片新闻的影响程度,记为e=a(q,p);定义9:注意力值,对齐模型用函数t进行归一化之后的值,记为α;定义10:加权平均,特指计算注意力值与输入图片的向量表示的加权平均的函数,记为E;定义11:反向传播算法,对深度注意力机制的损失函数用梯度下降法进行迭代优化求极小值的过程;定义12:分类器,特指将输入图片分成两类的二分类模型,输出图片属于每一类的概率0或者1,记为D,其中,0代表是封面,1代表不是封面;定义13:图片新闻的标签向量,记为L,指示图片新闻的标签位置,例如,若某条图片新闻有5张图片,其中第2张图片为该条新闻的封面,图片新闻的标签向量应表示为:L={0,1,0,0,0};定义14:交叉熵,衡量模型输出与标签向量之间差异的损失函数,记为H;定义15:准确率,对于给定的开发数据集或者测试数据集,分类器正确分类的样本数与总样本数之比;定义16:迭代,特指对一定的步骤进行重复执行,在每次执行这些步骤时,都从变量的原值推出它的新值,并对其进行更新;步骤二,根据定义1、定义2、定义4和定义5,对训练数据集Tran和开发集Dev中的图片用函数f进行特征提取,在一条有n张图片的新闻中,有pi=f(Ii),(i∈[0,n),pi∈RN),其中,N为p的维度;步骤三,根据定义6、定义7、定义8、定义9、定义10和定义11,模型的深度注意力机制部分为:首先,初始化深度注意力机制的query,记为q,q∈RN;然后,计算对齐模型:ei=a(q,pi),i∈[0,n),将e用函数t进行归一化,即α=t(e),得到注意力值α;之后,计算注意力值α与图片向量p的加权平均g=E(α,p),g即为深度注意力机制的输出;其中,深度注意力机制模型可以用反向传播算法优化权重参数;步骤四,基于步骤二得到的图片的向量表示p和步骤三得到的深度注意力机制模型的输出g,并根据定义9、定义12、定义13和定义14,用分类器D对输入图片进行二分类——0和1;图片Ii属于类别0的可能性为:k0i=D(g,pi),(i∈[0,n)),将k0用函数t进行归一化,即K=t(k0),得到输入图片为封面的概率K;通过最小化输入图片的标签向量L与K的交叉熵H来优化各权重;步骤五,利用步骤二至步骤四训练出的模型,并根据定义2和定义15,将开发集中的图片向量表示作为步骤二至步骤四训练出的模型的输入,输出开发集中每条图片新闻的封面选择,计算在开发集上封面选择的准确率;步骤六,根据定义16,重复步骤二至步骤五的迭代,直至达到最大迭代次数,在迭代过程中保存训练过程中步骤五计算得到的准确率最大的模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811123947.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top