[发明专利]基于图结构的已知虚假新闻智能检测方法有效
| 申请号: | 202110906574.5 | 申请日: | 2021-08-09 | 
| 公开(公告)号: | CN113609292B | 公开(公告)日: | 2023-10-13 | 
| 发明(设计)人: | 郭捷;沈琪;徐扬;邱卫东;黄征 | 申请(专利权)人: | 上海交通大学 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06N3/0464;G06N3/084 | 
| 代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 | 
| 地址: | 200240 *** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 结构 已知 虚假 新闻 智能 检测 方法 | ||
一种基于图结构的已知虚假新闻智能检测方法,通过获取训练用的新闻图像文本数据集后对文本与相应图片进行图文一对一数据对处理;用自然语言处理工具对每个数据对中的文本数据进行预处理,将文本切割为分词的组合;利用现有的中文新闻语料库计算各个分词的IDF值,再在每个文本内计算各自分词的TF值,从而计算每个分词在各自文本中的TF‑IDF值以表征图像与分词间的关联强度;利用Word2vec模型得到数据对中,文本数据中的每个分词的向量表示,每个分词向量都独立作为分词节点的初始特征向量;利用VGG模型得到数据对中,图像数据中的图片向量表示,作为图像节点的初始特征向量;根据得到的每个分词和图像之间的TF‑IDF值作为边,从而形成图得到图结构数据;利用所得数据对CARMN网络进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。本发明利用图结构得到更有效的图片与文字向量,提高虚假新闻检测的准确率。
技术领域
本发明涉及的是一种神经网络应用领域的技术,具体是一种基于图结构的已知虚假新闻智能检测方法。
背景技术
现有的神经网络对已知虚假新闻的语义提取方面的特点为:仅使用词向量模型对文本语义进行提取,其缺陷在于已有算法的检测准确率不够高,有较高的误判率,因此提高算法的准确率是一个重大挑战。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于图结构的已知虚假新闻智能检测方法。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤1)获取训练用的新闻图像文本数据集,其中包含已标注的虚假新闻和非虚假新闻。
步骤2)对文本与相应图片进行图文一对一数据对处理。
步骤3)用自然语言处理工具对每个数据对中的文本数据进行预处理,将文本切割为分词的组合。
步骤4)利用现有的中文新闻语料库计算各个分词的IDF值,再在每个文本内计算各自分词的TF值,从而计算每个分词在各自文本中的TF-IDF值以表征图像与分词间的关联强度。
步骤5)利用Word2vec模型得到数据对中,文本数据中的每个分词的向量表示,每个分词向量都独立作为分词节点的初始特征向量。
步骤6)利用VGG模型得到数据对中,图像数据中的图片向量表示,作为图像节点的初始特征向量。
步骤7)因为数据对中只有单个文本以及对应的单张图像,每个分词在各自文本中的TF-IDF值可以等价于每个分词在各自文本对应的图像中的TF-IDF值。根据得到的每个分词和图像之间的TF-IDF值作为边,从而形成图得到图结构数据。
步骤8)利用所得数据对CARMN网络进行训练,并对网络融合图片与文本向量后产生的最终向量进行二分类,达到检测虚假新闻的目的。
本发明涉及一种实现上述方法的系统,包括:图文预处理单元、文本处理单元、图像处理单元以及CARMN单元,其中:图文预处理单元实现文本与相应图片的一对一处理;文本处理单元依照图文预处理单元的结果,使用自然语言处理工具对文本数据计算分词向量,并与CARMN单元相连并传输文本向量信息,图像处理单元将图片用向量的形式表示,并与CARMN相连并传输图像向量信息;CARMN单元接收文本处理单元和图像处理单元的数据,并送入CARMN网络进行训练,得到二分类结果。
附图说明
图1为本发明的流程图;
图2为本发明中文本和图片一对一处理过程示意图;
图3为本发明中图结构数据示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110906574.5/2.html,转载请声明来源钻瓜专利网。





