[发明专利]一种针对中文文本分类任务的字符级对抗样本生成方法在审
申请号: | 202210219212.3 | 申请日: | 2022-03-08 |
公开(公告)号: | CN114579763A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 张顺香;吴厚月 | 申请(专利权)人: | 安徽理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/35;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 中文 文本 分类 任务 字符 对抗 样本 生成 方法 | ||
本发明提供一种对抗样本生成方法,涉及人工智能领域,尤其涉及自然语言处理领域,具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。具体实现方法为:获取用于生成对抗样本的原始数据,进行多音字字典的构建;对所述多音字字典中的数据进行标注;对所述原始数据进行利用所述多音字字典标注的数据进行多音字替换,得到对抗样本。本发明可以生成高质量的对抗样本。
技术领域
本发明涉及人工智能领域,尤其涉及自然语言处理领域,具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。
技术背景
在文本领域中,大量的文本数据被用来进行各种分析。在利用文本数据进行相关任务时,都需要使用对抗样本进行模型鲁棒性检测或数据增强。同时为向训练数据中添加对抗样本,可以提高模型鲁棒性。
在目前的对抗样本生成方法中,都存在扰动幅度较大,容易被模型识别的问题,使得对抗样本没有发挥最好的性能。如何生成高质量的对抗样本,最大程度不被模型识别是至关重要的,也是本发明要解决的问题。
发明内容
针对上述问题,本发明通过深入挖掘文本特征信息,利用汉字本身特点,生成高质量的对抗样本,为各类有对抗样本数据需求的任务提供技术支持。
本发明提供了一种针对中文文本分类任务的字符级对抗样本生成方法。
本发明所述的一种航空旅客付费选座意愿画像及分析的方法,其特征在于包含以下步骤:
A)数据获取及存储:从众多网络评论中获取原始数据,并进行存储。
B)多音字字典构建:根据所述原始数据,构建多音字字典。
所述多音字字典表示为同时包含字符和读音之间关系的字典,用四元组(w,x,y,i)描述。
其中,w是多音字的中文表示,x是w的拼音表述,y是w的具体含义,i表示w的第i个读音,i∈[1,7]。
C)多音字字典标注:根据所述多音字字典格式,进行标注,确定所述多音字字典中每个字的四元组(w,x,y,i)具体值。
D)对抗样本生成:将所述原始样本作为输入,利用构建的所述多音字字典中的数据,在所述原始数据中进行全局匹配,找到w相同的字,进行替换操作,得到与原文字形相同但字音不同的对抗样本。
本发明所述的一种航空旅客付费选座意愿画像及分析的方法,其特征在于:
在[0007]行中,所述原始数据包括结构化数据和非结构化数据。
本发明所述的一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于:
将所述对抗样本输入至目标判别模型,得到所述目标判别模型输出的所述样本的判断类别;
根据所述判断类别,得到当前判断与所述原始数据类别之间的差异,得到扰动值,并将所述扰动返回至所述对抗样本生成过程。其中,所述目标判断类别与所述原始类别为不同。
由于采用上述技术方案,本发明通过深入挖掘文本特征信息,利用中文多音字信息,生成高质量的对抗样本。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本发明的限定。其中:
图1是一种针对中文文本分类任务的字符级对抗样本生成方法的替换向量描述图
具体实施方式
下面结合附图说明,帮助理解本发明的发明内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210219212.3/2.html,转载请声明来源钻瓜专利网。