[发明专利]一种基于层次attention的微博谣言立场检测方法有效
| 申请号: | 201810537591.4 | 申请日: | 2018-05-30 |
| 公开(公告)号: | CN108804608B | 公开(公告)日: | 2021-08-27 |
| 发明(设计)人: | 夏睿;李银波 | 申请(专利权)人: | 武汉烽火普天信息技术有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9532;G06F16/332;G06F16/35 |
| 代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
| 地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 层次 attention 谣言 立场 检测 方法 | ||
本发明公开了一种基于层次attention的微博谣言立场检测方法,包括以下步骤:步骤一、对微博谣言数据进行预处理;步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文;步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类;本发明通过引入上下文以及原始谣言的信息,构建基于层次attention的谣言立场检测模型,利用双向LSTM对文本进行编码表示,抽取对话序列,在序列上利用句子级attention学习上下文信息,最终达到分类目的,克服了传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷。
技术领域
本发明涉及自然语言处理应用技术领域,具体的说是一种基于层次attention 的微博谣言立场检测方法。
背景技术
随着社交网络的不断发展,借助社交媒体进行传播的谣言信息的威胁也越来越大。谣言信息具有传播速度快、传播范围广和难以抑制等特点,其传播难以通过人工手段进行有效的控制。
谣言立场识别是在谣言数据上做立场分析的研究,涉及到社交媒体的数据处理、文本分类技术、文本情感分析等。传统的立场检测方法中,对于谣言立场的识别研究多是在特征模板上做文章,一般是挖掘不同角度的特征,然后利用分类器的集成,单纯将该问题视为文本分类任务来处理,忽视了社交媒体语料本身结构上的特点和谣言本身对于立场分析所起的作用。
基于此,针对上述现状中存在的问题,相较于传统的谣言立场检测方法,本发明提出一种旨在解决传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷的基于层次attention的谣言立场检测方法。
发明内容
为了解决上述现有技术的问题,本发明提供一种旨在解决传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷的基于层次attention 的谣言立场检测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于层次attention的微博谣言立场检测方法,包括以下步骤:
步骤一、对微博谣言数据进行预处理;
步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;
步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文;
步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类。
进一步地,所述微博谣言数据为中文文本或者英文文本。
更进一步地,所述微博谣言数据为中文文本时,依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。
更进一步地,所述微博谣言数据为英文文本时,对文本进行预处理的依次为:将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。
更进一步地,英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示。
进一步地,预处理步骤还包括:从三个角度挖掘社交媒体的特征,与词嵌入进行拼接,三个角度分别为内容、用户和传播。
进一步地,所述步骤四中,构建基于层次attention的LSTM模型的具体内容为:
A、利用单词级别的attention机制作用于文本的编码表示,通过双向LSTM 模型实现;
B、利用句子级别的attention机制作用于文本序列编码表示上,通过双向 LSTM模型实现;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司,未经武汉烽火普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810537591.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:聊天消息查询方法、装置及设备
- 下一篇:歌曲推荐方法和装置





