[发明专利]一种网络媒体平台变体评论对抗文本生成方法有效
申请号: | 202010791900.8 | 申请日: | 2020-08-08 |
公开(公告)号: | CN113282746B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 刘春;刘峥;殷茗 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F18/2411;G06F18/22 |
代理公司: | 西安匠星互智知识产权代理有限公司 61291 | 代理人: | 陈星 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络媒体 平台 变体 评论 对抗 文本 生成 方法 | ||
本发明提出一种新型网络媒体平台变体评论对抗文本生成方法,在总结新型网络媒体平台常用的变体文本变体规则基础上,首先对分类标注文本进行特征词提取;然后对特征词分别进行了基于各种规则的变体词汇生成,并在此基础上进行了基于变体规则的变体文本生成;接着通过word2vec词向量方法对标注文本进行训练获得各词汇的词向量,并根据词向量得到各词汇的相似词列表,实现基于神经网络词向量的变体文本生成;最后通过概率随机化方法实现了组合变体规则和词向量相似词的变体文本生成方法。本发明能够生成海量不同形式变体文本,能够对抗常规文本过滤,具有较高的逼真度。
技术领域
本发明涉及一种自然语言处理评论文本生成技术领域,具体为一种网络媒体平台变体评论对抗文本生成方法。
背景技术
网络媒体平台,如抖音、快手、网易云音乐等每天产生数以亿计用户评论,其中不乏部分不良用户为避免审查通过同音同形等变体方法产生的垃圾评论。这些具有负面情绪或者不良隐喻的变体垃圾评论严重污染了网络环境,对平台使用者造成了消极影响,分析并正确识别这些变体垃圾评论对于平台健康发展具有重要意义。
现有的变体垃圾文本分类方法主要包括两类,一类是基于变体词识别和规范化的方法,通过提取变体词特征识别出文本变体词,并确定对应的目标实体词进行文本规范化,然后对规范化的文本使用常用文本分类方法进行分类。文献[沙灜,梁棋,王斌.中文变体词的识别与规范化综述[J].信息安全学报,2016,1(03):77-87.]对当前的变体词识别和规范化技术进行了总结,总结了包括缩写、语音替换和汉字拆分组合等9类变体词生成方法,并对各种变体特征提取以及识别与解析流程进行了分析。文献[陈儒,张宇,刘挺.面向中文特定信息变异的过滤技术研究[J].高技术通讯,2005,15(9):7-12.]总结了5种网络文本变换方法,并提出了结合压缩编码思想的WM算法进行变体词从模糊到精确的匹配识别。另一类是基于深度神经网络的方法,利用词向量嵌入结合深度学习语言模型特征向量表达实现变体文本特征的自动学习,通过大规模变体文本训练学习,基于深度神经网络的变体文本分类方法能够实现变体垃圾文本的正确分类。文献[Liang B,Li H,Su M,et al.Deep TextClassification Can be Fooled[J].2017.]验证了通过对训练文本使用插入、修正和删除等操作进行文本增强能够有效提高基于字符和基于词语的深度神经网络DNN分类器性能。
基于特征提取的变体文本分类方法受限于变体规则的多样性和网络新词的不断涌现,无法达到较高的分类精度。而基于深度神经网络的变体文本分类方法存在的问题是需要大量变体文本训练数据。
发明内容
针对基于深度神经网络的文本分类方法变体文本训练数据不足导致变体文本分类精度不高的问题,本发明通过变体文本规则分析,利用自然语言处理的特征词提取、词序列随机化、词向量和文本生成技术实现不同形式的变体对抗文本生成。
本发明基本原理是:
在总结网络媒体平台常用的变体文本变体规则基础上,首先对分类标注文本进行特征词提取;然后对特征词分别进行了基于各种规则的变体词汇生成,并在此基础上进行了基于变体规则的变体文本生成;接着通过word2vec词向量方法对标注文本进行训练获得各词汇的词向量,并根据词向量得到各词汇的相似词列表,实现基于神经网络词向量的变体文本生成;最后通过概率随机化方法实现了组合变体规则和词向量相似词的变体文本生成方法。
本发明的技术方案为:
所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:包括以下步骤:
步骤1:标注文本特征词提取:
对于标注文本中的词语t,计算t对于标注类别集合S中各个类别的卡方检测子,以最大的卡方检测子值为词语t的卡方值;
对标注文本中的所有词语计算卡方值,并对卡方值进行排序,选择卡方值最大的k个词为标注文本的特征词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010791900.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自移动搬运机器人
- 下一篇:用于手动卷帘的抗旋转离合器组件