[发明专利]基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质在审

专利信息
申请号: 202111069695.5 申请日: 2021-09-13
公开(公告)号: CN113761377A 公开(公告)日: 2021-12-07
发明(设计)人: 马博;地力夏提·阿布都热依木;杨雅婷;王磊;周喜;董瑞 申请(专利权)人: 中国科学院新疆理化技术研究所
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/9536;G06K9/62;G06F40/30;G06F40/242;G06F40/289
代理公司: 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 代理人: 张莉
地址: 830011 新疆维吾尔*** 国省代码: 新疆;65
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 注意力 机制 特征 融合 虚假 信息 检测 方法 装置 电子设备 存储 介质
【说明书】:

发明公开了一种基于注意力机制多特征融合的虚信息检测方法、装置、电子设备及存储介质,获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理;将预处理得到的文本数据输入到BERT预训练模型中获取语义信息提取文本特征向量;将文本数据输入到情感特征提取器中提取到文本中的情感特征向量;将预处理得到的图片数据输入到VGG‑19预训练模型中提取视觉特征;通过注意力机制融合文本特征和情感特征,形成文本情感融合特征;将多模态特征输入到虚假信息识别器和领域分类器中,得到最终的分类结果。本发明通过增加情感特征以及用注意力机制融合的方式,有效地利用了多模态的优势,提高了虚假信息检测的准确率。

技术领域

本发明涉及信息技术领域中的自然语言处理领域,尤其涉及深度学习、多模态特征融合等技术领域,具体地提供一种基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质。

背景技术

网络和社交媒体的快速发展,降低了传播信息的成本,使得人们之间的交流更加频繁。但这也给虚假信息的迅速传播提供了机会。微博,推特等社交媒体因及时和全面的提供世界各地的新闻,也已经成为各种领域中重要的新闻媒体和舆论平台。

现在的自媒体还是专业媒体都开始向基于图、文、短视频的多媒体新闻形式转变。多媒体内容承载着更加丰富与直观的信息。虚假信息中真实图片和虚假文本、虚假图片和真实文本的结合让单一模态的虚假信息检测的性能直线下降。如何充分利用多模态的信息,准确快速地识别虚假信息是一个挑战。因此针对虚假信息的有效迅速检测具有重要的意义。

近年来,因神经网络和深度学习模型的进展迅速,产生了同时利用文本和视觉模态信息来判别真实性的多模态检测方法。在现有工作中,具有代表性的包括:attRNN、EANN、MVAE和BDANN。这些方法虽然在多模态形式的虚假信息检测中提供了启发式的思路,但仍有缺点。一是对于图像和文本两种信息的提取过程仍比较粗糙;二是在特征融合阶段往往都是将两种模态特征简单拼接,并未发挥多模态的优势。

发明内容

本发明目的在于。提供一种基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备以及存储介质。该方法获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理;将预处理得到的文本数据输入到BERT预训练模型中获取语义信息提取文本特征向量;将文本数据输入到情感特征提取器中提取到文本中的情感特征向量;将预处理得到的图片数据输入到VGG-19预训练模型中提取视觉特征;通过注意力机制融合文本特征和情感特征,形成文本情感融合特征;将多模态特征输入到虚假信息识别器和领域分类器中,得到最终的分类结果。本发明通过增加情感特征以及用注意力机制融合的方式,有效地利用了多模态的优势,提高了虚假信息检测的准确率。

本发明所述的一种基于注意力机制多特征融合的虚假信息检测方法,按下列步骤进行:

a、获取微博和推特数据集,对所述微博和推特数据集中文本和图片进行预处理,包括数据清洗、图片大小格式转换、中文数据集进行分词、去停用词、推特数据集非英文文本统一翻译为英文,并将两个数据集划分为训练集、验证集和测试集,并通过聚类方法,为每条数据附上领域标签;

b、将步骤a得到的预处理文本数据输入到BERT预训练模型中,获取语义信息提取文本特征向量是在句子的开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],使用BERT语言模型进行编码,最终取[CLS]位置处的输出向量作为整个句子的语义表示;

c、将原始文本数据输入到情感特征提取器分别提取情感分类、情感词汇、情感强度和情感辅助特征组成文本中的情感特征向量;

d、将步骤a得到的预处理图片数据转换为224×224×3,输入到VGG-19预训练模型中获得图片的视觉表示;

e、通过注意力机制融合步骤b文本特征和步骤c情感特征,通过软性注意力机制融合得到文本情感特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111069695.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top