[发明专利]一种针对中文文本分类任务的字符级对抗样本生成方法在审

申请号：	202210219212.3	申请日：	2022-03-08
公开（公告）号：	CN114579763A	公开（公告）日：	2022-06-03
发明（设计）人：	张顺香;吴厚月	申请（专利权）人：	安徽理工大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/31;G06F16/35;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	232001 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对中文文本分类任务字符对抗样本生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种对抗样本生成方法，涉及人工智能领域，尤其涉及自然语言处理领域，具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。具体实现方法为：获取用于生成对抗样本的原始数据，进行多音字字典的构建；对所述多音字字典中的数据进行标注；对所述原始数据进行利用所述多音字字典标注的数据进行多音字替换，得到对抗样本。本发明可以生成高质量的对抗样本。

技术领域

本发明涉及人工智能领域，尤其涉及自然语言处理领域，具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。

技术背景

在文本领域中，大量的文本数据被用来进行各种分析。在利用文本数据进行相关任务时，都需要使用对抗样本进行模型鲁棒性检测或数据增强。同时为向训练数据中添加对抗样本，可以提高模型鲁棒性。

在目前的对抗样本生成方法中，都存在扰动幅度较大，容易被模型识别的问题，使得对抗样本没有发挥最好的性能。如何生成高质量的对抗样本，最大程度不被模型识别是至关重要的，也是本发明要解决的问题。

发明内容

针对上述问题，本发明通过深入挖掘文本特征信息，利用汉字本身特点，生成高质量的对抗样本，为各类有对抗样本数据需求的任务提供技术支持。

本发明提供了一种针对中文文本分类任务的字符级对抗样本生成方法。

本发明所述的一种航空旅客付费选座意愿画像及分析的方法，其特征在于包含以下步骤：

A)数据获取及存储：从众多网络评论中获取原始数据，并进行存储。

B)多音字字典构建：根据所述原始数据，构建多音字字典。

所述多音字字典表示为同时包含字符和读音之间关系的字典，用四元组(w,x,y,i)描述。