[发明专利]基于长文本特征提取优化的媒体假新闻检测方法及系统在审

专利信息
申请号: 202111005192.1 申请日: 2021-08-30
公开(公告)号: CN113704473A 公开(公告)日: 2021-11-26
发明(设计)人: 马坤;汤长昊;纪科;杨波;陈贞翔 申请(专利权)人: 济南大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/237;G06F40/284;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06N20/00
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 李琳
地址: 250022 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 文本 特征 提取 优化 媒体 新闻 检测 方法 系统
【说明书】:

发明提供了一种基于长文本特征提取优化的媒体假新闻检测方法及系统,对获取的媒体数据进行预处理;对预处理后的媒体数据根据数据对齐的统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测,得到检测结果。本发明能够减少数据噪声问题,解决自编码模型存在的预训练‑微调阶段的学习偏差,降低特征维度,解决长文本信息丢失问题,提高特征学习能力。

技术领域

本发明属于机器学习和文本分类技术领域,涉及一种基于长文本 特征提取优化的媒体假新闻检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必 然构成在先技术。

随着网络技术的快速发展,我们逐渐进入自媒体时代。相比于 传统新闻,自媒体新闻存在高便携性与低门槛性,其质量普遍低于传 统新闻。为了吸引读者注意,假新闻事件层出不穷。不仅会误导不明 真相的读者,而且会造成恶劣的社会影响。

国内外对于假新闻检测方向的研究主要分为传统机器学习方式 以及深度学习方式。传统机器学习主要依赖于人工提取新闻内容特征, 如统计特征或语义特征。典型的传统机器学习分类器包括朴素贝叶斯 分类器、支持向量机(SVM)、决策树等。但是新闻的语言模式高度依 赖于特定事件和相应的领域知识,因此难以通过手工制作数据特征。 与传统机器学习方式相比,深度学习构建神经网络可以更加准确的学 习文本内容表示。循环神经网络(RNN)与卷积神经网络(CNN)分 别被应用到假新闻检测中,RNN可以将时间序列中的文本内容表示 建模为特征向量,卷积神经网络(CNN)可以从新闻文本中抽取局部 和全局特征。之后又有学者提出了LSTM、RCNN、DPCNN等模型。 实验结果表明,基于深度学习的模型具有良好的性能。但是CNN和 LSTM在长文本语义特征的提取上都存在着天然的缺陷。由于卷积核 的大小限制,CNN无法捕获长距离依赖关系。LSTM虽然克服了RNN 在学习长距离依赖时存在的梯度消失问题,但仍然不能有效地捕获长 距离依赖关系。2017年谷歌提出了Transformer模型,注意机制被 广泛应用于各种Seq2Seq模型中,并在语义学习中表现出强大的优势。 之后有学者提出了ELMo,它使用双向LSTM构建语言模型。相比传 统神经网络构建的上下文无关词向量,它能够对多义词进行建模。但 是LSTM为串行机制,训练时间长,并且相较于Transformer模型在 特征提取方面能力不足。相比ELMo模型,GPT使用Transformer作 为特征提取器,能够更好的捕获长距离语言结构。但是由于使用的是 单向语言模型,对于语境信息的学习不够深入。BERT采用Masked Language Model(MLM)学习目标实现了双向语言模型训练,较比单 向训练的语言模型能够学习到更加深入的语境理解。然而,BERT只 在预训练阶段使用了MLM学习目标,这导致了预训练和微调阶段的 学习误差。

词嵌入也是提高模型性能的重要因素。在词嵌入与神经网络结 合后,便广泛地应用于自然语言处理中。ELMo采用双向的长短期记 忆网络(Long Short-Term Memory,LSTM)进行预训练,将词向量 结合上下文来学习词义,由静态词向量转化为动态词向量。GPT首次提出了无监督的预训练和有监督的微调,使得训练好的模型能够更好 地适应下游任务。BERT采用双向Transformer结构训练语言模型, 使得该模型对语境的理解更加深刻。在文本分类任务中数据是参差不 齐的,这样就给模型训练带来了困难,因此在训练之前需要进行数据 对齐。目前的文本分类方法大多针对短文本,而对于长文本数据通常 采取的做法是先进行截断,再采用和短文本一样的方法来处理。这种 做法必然会导致文本信息的缺失。所产生的不完整的文本序列不仅仅 会丢失文本特征,还会产生文本歧义。同时截断后保留的部分还会有 相当多许多的对分类没有影响或影响很小的特征,影响分类性能。

目前在中文社交媒体假新闻检测领域的研究主要是以分析文本 特征为主,并运用分类或者排序方法对文本信息可信度进行评估。该 领域的研究主要存在以下几点问题:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111005192.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top