[发明专利]基于元学习及深度学习的少样本社交媒体谣言检测方法有效
| 申请号: | 202110770088.5 | 申请日: | 2021-07-07 |
| 公开(公告)号: | CN113377959B | 公开(公告)日: | 2022-12-09 |
| 发明(设计)人: | 陆恒杨;范晨悠;杨舜;吴小俊 | 申请(专利权)人: | 江南大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/335;G06F40/126;G06N20/00 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 夏苏娟 |
| 地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 学习 深度 样本 社交 媒体 谣言 检测 方法 | ||
1.一种基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于,包括以下步骤:
S1:获取大样本事件的文本数据,将大样本事件的谣言检测任务建模为二分类机器学习任务,对大样本事件文本数据进行文本特征编码得到大样本事件文本数据的文本字符级特征向量,将大样本事件文本数据的文本字符级特征向量输入双向GRU模型进行训练,得到通用预测模型;
S2:获取少样本事件的文本数据,将少样本事件的谣言检测任务建模为二分类机器学习任务,将已被官方关注的话题下被标注为谣言和未被标注为谣言的少样本事件的文本数据作为有标注少样本,将未被官方关注的话题的少样本事件的文本数据作为无标注少样本;
S3:对有标注少样本进行文本特征编码得到有标注少样本的文本字符级特征向量,将有标注少样本的文本字符级特征向量输入通用预测模型中进行任务适应,更新通用预测模型的参数得到少样本谣言预测模型;
S4:对无标注少样本进行文本特征编码得到无标注少样本的文本字符级特征向量,将无标注少样本的文本字符级特征向量输入少样本谣言预测模型中进行预测,得到预测结果。
2.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述文本特征编码的过程为:
按字符粒度对输入文本进行分割和嵌入,通过预训练BERT模型获取输入文本的文本字符级特征向量。
3.根据权利要求2所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述文本字符级特征向量中还加入了随机遮挡层,用于避免过拟合现象。
4.根据权利要求3所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述随机遮挡层随机选中遮挡概率为r的字符,并置选中字符的编码向量所有维度为0。
5.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述获取大样本事件的文本数据和获取少样本事件的文本数据的方法,具体为:
通过事件关键词爬取官方判定为不实信息的言论数据,根据事件关键词爬取未被标注为不实信息的相关言论数据,对爬取到的所有言论数据进行预处理得到输入文本。
6.根据权利要求5所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述对爬取到的所有言论数据进行预处理得到输入文本,预处理的方法为:按照分词、停用词、数据清理的步骤进行数据预处理,所述数据清理为使用汉明距离过滤重复性文本,用于避免重复的言论数据造成过拟合。
7.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述将大样本事件文本数据的文本字符级特征向量输入双向GRU模型进行训练时,使用双向GRU模型提取大样本事件文本数据的文本字符级特征向量的上下文特征得到隐状态,所述上下文特征包括正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态,所述隐状态为正向输入时得到的正向隐式状态和反向输入时得到的反向隐式状态的平均值,隐状态用于后续的谣言分类。
8.根据权利要求1所述的基于元学习及深度学习的少样本社交媒体谣言检测方法,其特征在于:所述S2中将少样本事件的谣言检测任务建模为二分类机器学习任务,具体为:
将少样本事件的谣言检测任务记为N-task、K-shot、Q-query;其中N-task表示训练和测试过程中的任务数,K-shot表示训练样本数,Q-query表示查询样例数,N代表少样本学习的任务数、K代表每一个任务抽样的支持样例数、Q代表每一个任务抽样的查询样例数;
每次从N/2个事件中分别采样K条有标注的谣言和非谣言数据用于训练,其中标注用于标记数据是否已知是谣言,在各个事件中随机采样Q条未用于训练的无标注谣言和非谣言数据用于测试,则每个检测某事件的谣言任务均由K+Q条数据构成;每一个任务包括了多个不同的事件,每一个事件分别抽样选取多个谣言和非谣言文本用来训练模型,记为少样本支持数据集用于适应事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110770088.5/1.html,转载请声明来源钻瓜专利网。





