[发明专利]一种网络媒体平台变体评论对抗文本生成方法有效
申请号: | 202010791900.8 | 申请日: | 2020-08-08 |
公开(公告)号: | CN113282746B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 刘春;刘峥;殷茗 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F18/2411;G06F18/22 |
代理公司: | 西安匠星互智知识产权代理有限公司 61291 | 代理人: | 陈星 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络媒体 平台 变体 评论 对抗 文本 生成 方法 | ||
1.一种网络媒体平台变体评论对抗文本生成方法,其特征在于:包括以下步骤:
步骤1:标注文本特征词提取:
对于标注文本中的词语t,计算t对于标注类别集合S中各个类别的卡方检测子,以最大的卡方检测子值为词语t的卡方值;
对标注文本中的所有词语计算卡方值,并对卡方值进行排序,选择卡方值最大的k个词为标注文本的特征词;
步骤2:基于规则的变体词汇和变体文本生成:包括基于单个词语的变体文本生成和基于文本整体的变体文本生成;
所述基于单个词语的变体文本生成是针对特征词或设定的敏感词进行变体;
所述基于文本整体的变体文本生成是针对文本整体进行变体;
所述基于文本整体的变体文本生成中的变体方式包括插入标点符号、插入emoji符号和插入数字;当进行其中一种特定类型字符插入的变体文本生成时,先列出特殊字符集合U,然后进行多次字符随机插入操作;
步骤3:基于词向量相似词的变体文本生成:
所述基于词向量相似词的变体文本生成属于基于单个词语的变体文本生成方式;
通过输入大量文本进行CBOW神经网络词向量模型训练得到各个词语的嵌入向量,计算词汇对应嵌入向量余弦距离得到词语之间的相似度,按照相似度进行排序,并在设定的阈值下得到词语的相似词,从而能够建立相似词列表,并通过词语查找替换实现基于词向量相似词的变体文本生成;
步骤4:基于概率随机的组合变体文本生成:
设定文本进行基于单个词语的变体生成以及进行基于文本整体的变体生成的先验概率为P1和P2,然后分别对这两种变体类别设计变体选择概率分布进行组合变体文本生成;
所述变体选择概率分布采用高斯函数离散化分布:
对于按J种变体方式组合的情况,选择半径为(J-1)/2的一维高斯核密度(p1,p2,...,pJ),根据变体文本可能发生的概率与高斯核密度进行对应,得到设计的变体方式选择概率分布
2.根据权利要求1所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:步骤1中,通过公式
计算词语t与标注类别集合S中的某个类别c的卡方检测子X2(t,c),其中类别c包含词语t的文本条数为A,非类别c包含词语t的文本条数为B,类别c不包含词语t的文本条数为C,非类别c不包含词语t的文本条数为D。
3.根据权利要求1所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:步骤2中,所述基于单个词语的变体文本生成中的变体方式包括词语变拼音、词语变emoji符号、词语拆字、词语简体变繁体、词语插入标点符号、词语插入emoji符号、词语插入数字、词语数字汉字变换、词语同音同形变换、词语缩写和词语乱序11种类型。
4.根据权利要求3所述一种网络媒体平台变体评论对抗文本生成方法,其特征在于:所述基于单个词语的变体文本生成中的变体方式分为四类,第一类是将词语变拼音、词语变emoji符号、词语数字汉字变换、词语拆字、词语简体变繁体、词语缩写;第二类是在词语插入标点符号、词语插入emoji符号和词语插入数字;第三类是词语同音同形变换;第四类是词语乱序;
其中第一类变体方式,建立词语和变体词语的字典,通过查字典实现变体转换;
对于第二类变体方式,采用随机插入实现变体转换;
对于第三类变体方式,先对音近形近进行度量,并确定音近形近候选字体集合,然后建立同音同形字体转移概率矩阵,最后按照转移概率矩阵进行变体词语生成;
对于第四类变体方式,采用洗牌算法实现变体转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010791900.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自移动搬运机器人
- 下一篇:用于手动卷帘的抗旋转离合器组件