[发明专利]对抗样本生成方法、装置、电子设备及存储介质有效
申请号: | 201911164609.1 | 申请日: | 2019-11-25 |
公开(公告)号: | CN111078892B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 王文华;吕中厚;刘焱 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/35 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对抗 样本 生成 方法 装置 电子设备 存储 介质 | ||
本申请公开了对抗样本生成方法、装置、电子设备及存储介质,涉及深度学习领域,其中方法可包括:获取包括文本段落、问题以及答案的三元组,所述问题为针对文本段落提出的问题,所述答案为基于文本段落生成的答案;对所述问题中的预定类型的词进行替换,得到至少一个修改后的问题;确定出所述问题对应的至少一个虚假答案,虚假答案与答案属于相同类型;根据修改后的问题及虚假答案生成至少一个干扰句;按照每次修改在文本段落中插入一个干扰句的方式,得到至少一个修改后的文本段落,选定一个修改后的文本段落作为对抗样本。应用本申请所述方案,可生成能够有效攻击模型的对抗样本,并可提升模型性能等。
技术领域
本申请涉及计算机应用技术,特别涉及深度学习领域的对抗样本生成方法、装置、电子设备及存储介质。
背景技术
阅读理解是自然语言处理(NLP,Natural Language Processing)领域的经典任务,即给定一个文本段落,针对该文本段落提出一个问题,答案可为该文本段落中的一个文本片段等。
在实际应用中,可利用训练得到的阅读理解模型来实现机器阅读理解,目前表现较好的阅读理解模型包括双向注意力流模型(BiDAF,Bi-Directional Attention Flow)等。
阅读理解模型容易受到对抗样本的干扰,从而导致推理出错误答案。因此,需要生成/构建对抗样本对阅读理解模型进行优化,以提升模型性能等。
针对阅读理解模型,目前通常采用黑盒攻击中的串联攻击方式,在黑盒攻击中,攻击者只能使用提供的输入查询目标模型,并获得输出预测和置信度得分,不具有完全访问权。串联攻击方式中,在文本段落中添加分散注意力的干扰句来生成对抗样本,但被添加的干扰句通常只是基于简单的语法规则或句式模板等生成的,实际效果并不理想。
发明内容
有鉴于此,本申请提供了对抗样本生成方法、装置、电子设备及存储介质。
一种对抗样本生成方法,包括:
获取包括文本段落、问题以及答案的三元组,所述问题为针对所述文本段落提出的问题,所述答案为基于所述文本段落生成的答案;
对所述问题中的预定类型的词进行替换,得到至少一个修改后的问题;
确定出所述问题对应的至少一个虚假答案,所述虚假答案与所述答案属于相同类型;
根据所述修改后的问题及所述虚假答案生成至少一个干扰句;
按照每次修改在所述文本段落中插入一个干扰句的方式,得到至少一个修改后的文本段落,选定一个修改后的文本段落作为所述对抗样本。
根据本申请一优选实施例,所述预定类型的词包括以下之一或任意组合:名词、形容词、命名实体、数字。
根据本申请一优选实施例,所述确定出所述问题对应的至少一个虚假答案包括:
确定所述答案所属的类型;
从斯坦福问答数据集中与所述答案属于相同类型的各答案中随机选出至少一个,作为所述虚假答案。
根据本申请一优选实施例,该方法进一步包括:获取所定义的至少两种不同类型;分别确定出所述斯坦福问答数据集中的各答案所属的类型。
根据本申请一优选实施例,所述根据所述修改后的问题及所述虚假答案生成至少一个干扰句包括:
确定出对应的语法规则;
根据所述语法规则将任一修改后的问题与任一虚假答案进行组合,得到至少一个干扰句。
根据本申请一优选实施例,该方法进一步包括:对生成的干扰句进行语法检查,过滤掉语法不正确的干扰句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911164609.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种离心机用负压吸料装置
- 下一篇:预热燃烧点火系统及方法,预热燃烧锅炉设备