[发明专利]对抗测试看图说话系统的方法和相关装置有效

申请号：	201910381831.0	申请日：	2019-05-08
公开（公告）号：	CN110188620B	公开（公告）日：	2022-11-04
发明（设计）人：	吴保元;许焱;樊艳波;张勇;刘威;沈复民;申恒涛	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06V10/70	分类号：	G06V10/70;G06F40/216
代理公司：	深圳市联鼎知识产权代理有限公司 44232	代理人：	刘抗美
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	对抗测试图说系统方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种对抗测试看图说话系统的方法及相关装置。该方法包括：构造目标函数；对所述目标函数中具有求最大值符号的算项，指定对抗噪声，基于所述对抗噪声，确定具有求最大值符号的算项最大时算项中的未知变量值，将所述目标函数中所述具有求最大值符号的算项去最大值符号后的部分作为剩余函数，将求出的未知变量值代入所述剩余函数中求解使剩余函数值最小时的对抗噪声，替代之前指定的对抗噪声，反复迭代；将迭代终止后得到的对抗噪声叠加到所述看图说话系统要识别的图片上。本公开实施例不但能够使看图说话系统生成的图像描述语句含有指定的词，还能够指定这些词出现的位置，即在指定的位置出现指定的词。

技术领域

本公开涉及看图说话领域，具体涉及一种对抗测试看图说话系统的方法、装置、对抗测试组件和介质。

背景技术

看图说话系统是这样一种系统，它利用机器学习的原理，当将图片输入到该系统后，该系统就会识别图片的内容，输出解说图的语句，或说出解说图的话。看图说话系统对于人工智能机器人解析图片和视频等具有重大的意义。对抗测试看图说话系统是指对看图说话系统要识别的图片加噪声，干扰看图说话系统的识别，使之输出与图片内容不符的解析语句或语音，甚至让其解析出对抗测试者想要其输出的语句或语音，以此分析看图说话系统对抗各种干扰的性能，在后续过程中进行改进。

目前，对抗测试看图说话系统的技术只有Show-And-Fool。这种技术提供了两种类型的对抗测试，分别是对整句话的对抗测试(targeted captions)和针对句子中关键词的对抗测试(targeted keywords)。 Show-And-Fool对句子中关键词对抗测试仅仅是要求生成的图像描述语句中含有指定的关键词，但是无法指定其出现的位置。

发明内容

本公开的一个目的在于提出一种对抗测试看图说话系统的方法、装置、对抗测试组件和介质，它不但能够使看图说话系统生成的图像描述语句含有指定的词，还能够指定这些词出现的位置，即在指定的位置出现指定的词。

根据本公开实施例的一方面，公开了一种对抗测试看图说话系统的方法，所述方法包括：

构造目标函数，所述目标函数基于第一对数和第二对数的差，所述第一对数是给定在看图说话系统要识别的图片上将要叠加的对抗噪声时，所述看图说话系统输出语句在预定观测位置出现的词的组合为预定观测词组合的概率的对数，所述第二对数是给定在看图说话系统要识别的图片上将要叠加的对抗噪声时，所述看图说话系统输出语句在预定观测位置出现的词的组合不为预定观测词组合的概率的对数；

对所述目标函数中具有求最大值符号的算项，指定对抗噪声，基于所述对抗噪声，确定具有求最大值符号的算项最大时算项中的未知变量值，将所述目标函数中所述具有求最大值符号的算项去最大值符号后的部分作为剩余函数，将求出的未知变量值代入所述剩余函数中求解使剩余函数值最小时的对抗噪声，替代之前指定的对抗噪声，进行下一轮迭代，直至满足迭代终止条件；

将迭代终止后得到的对抗噪声叠加到所述看图说话系统要识别的图片上，以期望所述看图说话系统识别出的语句的预定观测位置出现指定的词。

在一个实施例中，所述目标函数为所述对抗噪声的二范数的平方的预定比例，减去给定将要叠加的对抗噪声时所述看图说话系统输出语句在预定观测位置出现的词的组合为预定观测词组合、以及所述看图说话系统输出语句在非预定观测位置出现的词组合是各不同词组合的联合概率的对数在非预定观测位置出现的不同词组合下的最大值，加上给定将要叠加的对抗噪声时所述看图说话系统输出语句在预定观测位置出现的词的组合不为预定观测词组合、以及所述看图说话系统输出语句在非预定观测位置出现的词组合不是各不同词组合的联合概率的对数与松弛变量的和在预定观测位置出现的不同词组合和在非预定观测位置出现的不同词组合下的最大值，所述松弛变量等于预定正常数乘以预定倍数，其中，所述预定倍数等于所述看图说话系统输出语句在预定观测位置出现的词的组合中的词与预定观测词组合对应位置中的词不同的数目。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910381831.0/2.html，转载请声明来源钻瓜专利网。

上一篇：证件真伪鉴定方法、装置以及计算机可读存储介质
下一篇：一种基于SSF-IL-CNN的三维人脸表情识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]对抗测试看图说话系统的方法和相关装置有效

专利文献下载