[发明专利]一种基于相似字典的文本攻击方法、装置及存储介质在审
| 申请号: | 202010263721.7 | 申请日: | 2020-04-03 |
| 公开(公告)号: | CN111507093A | 公开(公告)日: | 2020-08-07 |
| 发明(设计)人: | 顾钊铨;付潇鹏;谢禹舜;朱斌;伍丹妮;韩伟红;仇晶;方滨兴 | 申请(专利权)人: | 广州大学 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/247;G06F40/194;G06K9/62 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
| 地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 相似 字典 文本 攻击 方法 装置 存储 介质 | ||
1.一种基于相似字典的文本攻击方法,其特征在于,步骤包括:
获取作为神经网络输入数据的原始文本;
确定在所述原始文本中需要修改的单词;
在字典中选出与所述需要修改的单词相似的替代单词;
在所述原始文本中将所述需要修改的单词修改成替代单词,以生成对抗样本文本。
2.如权利要求1所述的基于相似字典的文本攻击方法,其特征在于,所述确定在所述原始文本中需要修改的单词,具体为:
将所述原始文本的某一单词替换成另一个拼写相似的单词,以生成修改文本;
将所述原始文本和所述修改文本分别输入至神经网络进行计算;
通过比较所述原始文本和所述修改文本的计算结果确定两者的相似度;
对应所述原始文本的每一个单词生成若干修改文本,将相似度最低的修改文本对应的单词确定为需要修改的单词。
3.如权利要求2所述的基于相似字典的文本攻击方法,其特征在于,所述通过比较所述原始文本和所述修改文本的计算结果确定两者的相似度,通过以下方式计算:
dj=|a′0-a0|+|a′1-a1|
其中,输入神经网络进行计算后,所述原始文本和所述修改文本的计算结果分别为概率(a′0,a′1)和(a0,a1),dj表示差异值。
4.如权利要求1所述的基于相似字典的文本攻击方法,其特征在于,所述在字典中选出与所述需要修改的单词相似的替代单词,具体为:
列举字典中所有与所述需要修改的单词拼写相似的修改单词;
将所述修改单词分别替换所述需要修改的单词,以对应生成若干对抗样本;
分别计算神经网络对所述若干对抗样本的识别概率;
根据所述识别概率找出对抗样本及所述对抗样本对应的修改单词。
5.一种基于相似字典的文本攻击装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的基于相似字典的文本攻击方法。
6.一种基于相似字典的文本攻击装置,其特征在于,包括:
文本获取模块,用于获取作为神经网络输入数据的原始文本;
文本解析模块,用于确定在所述原始文本中需要修改的单词;
检索模块,用于在字典中选出与所述需要修改的单词相似的替代单词;
文本修改模块,用于在所述原始文本中将所述需要修改的单词修改成替代单词,以生成对抗样本文本。
7.如权利要求6所述的基于相似字典的文本攻击装置,其特征在于,所述文本解析模块,还包括:
修改文本生成模块,用于将所述原始文本的某一单词替换成另一个拼写相似的单词,以生成修改文本;
文本分类模块,用于将所述原始文本和所述修改文本分别输入至神经网络进行计算;
计算模块,用于通过比较所述原始文本和所述修改文本的计算结果确定两者的相似度;
遍历模块,用于对应所述原始文本的每一个单词生成若干修改文本,将相似度最低的修改文本对应的单词确定为需要修改的单词。
8.如权利要求7所述的基于相似字典的文本攻击装置,其特征在于,所述计算模块还用于执行以下方式计算:
dj=|a′0-a0|+|a′1-a1|
其中,输入神经网络进行计算后,所述原始文本和所述修改文本的计算结果分别为概率(a′0,a′1)和(a0,a1),dj表示差异值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010263721.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:海洋水体中生物蝶呤的检测方法
- 下一篇:一种数据交换方法及系统





