[发明专利]一种针对中文文本分类任务的字符级对抗样本生成方法在审
申请号: | 202210219212.3 | 申请日: | 2022-03-08 |
公开(公告)号: | CN114579763A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 张顺香;吴厚月 | 申请(专利权)人: | 安徽理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/35;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 中文 文本 分类 任务 字符 对抗 样本 生成 方法 | ||
1.一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于包含以下步骤:
A)数据获取及存储:从众多网络评论中获取原始数据,并进行存储。
B)多音字字典构建:根据所述原始数据,构建多音字字典。
所述多音字字典表示为同时包含字符和读音之间关系的字典,用四元组(w,x,y,i)描述。
其中,w是多音字的中文表示,x是w的拼音表述,y是w的具体含义,i表示w的第i个读音,i∈[1,7]。
C)多音字字典标注:根据所述多音字字典格式,进行标注,确定所述多音字字典中每个字的四元组(w,x,y,i)具体值。
D)对抗样本生成:将所述原始样本作为输入,利用构建的所述多音字字典中的数据,在所述原始数据中进行全局匹配,找到w相同的字,进行替换操作,得到与原文字形相同但字音不同的对抗样本。
2.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于:
在步骤A),所述原始数据包括结构化数据和非结构化数据。
3.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于:
将所述对抗样本输入至目标判别模型,得到所述目标判别模型输出的所述样本的判断类别;
根据所述判断类别,得到当前判断与所述原始数据类别之间的差异,得到扰动值,并将所述扰动返回至所述对抗样本生成过程。其中,所述目标判断类别与所述原始类别为不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210219212.3/1.html,转载请声明来源钻瓜专利网。