[发明专利]一种基于层次attention的微博谣言立场检测方法有效
| 申请号: | 201810537591.4 | 申请日: | 2018-05-30 |
| 公开(公告)号: | CN108804608B | 公开(公告)日: | 2021-08-27 |
| 发明(设计)人: | 夏睿;李银波 | 申请(专利权)人: | 武汉烽火普天信息技术有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9532;G06F16/332;G06F16/35 |
| 代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
| 地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 层次 attention 谣言 立场 检测 方法 | ||
1.一种基于层次attention的微博谣言立场检测方法,其特征在于,包括以下步骤:
步骤一、对微博谣言数据进行预处理;
步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;
步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文;
步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类;
所述步骤四中,构建基于层次attention的LSTM模型的具体内容为:
A、利用单词级别的attention机制作用于文本的编码表示,通过双向LSTM模型实现;
B、利用句子级别的attention机制作用于文本序列编码表示上,通过双向LSTM模型实现;
C、将基于序列上attention的文本表示,经过softmax分类,得到类别概率;
D、将步骤三构造的序列送入步骤四的模型当中,得到目标文本的立场概率分布;
对于步骤A,设定文本t由单词组成,用{w1,w2,...,wT}来表示,将向量表示的文本初始化,初始为0向量,送入双向LSTM,通过正向层获取隐藏状态通过反向层获取隐藏状态拼接得到编码后的隐藏状态通过以下公式:
ut=tanh(W·ht+b);
得到相应的权重αt与获得的每个文本x,其中,u表示上下文向量,ut表示每个t时刻的词隐层,将步骤三挖掘的特征做向量特征化处理之后与文本表示x进行拼接。
2.根据权利要求1所述的一种基于层次attention的微博谣言立场检测方法,其特征在于:所述微博谣言数据为中文文本或者英文文本。
3.根据权利要求2所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,所述微博谣言数据为中文文本时,依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。
4.根据权利要求2所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,所述微博谣言数据为英文文本时,对文本进行预处理的依次为:将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。
5.根据权利要求4所述的一种基于层次attention的微博谣言立场检测方法,其特征在于:英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示。
6.根据权利要求3或4所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,预处理步骤还包括:从三个角度挖掘社交媒体的特征,与词嵌入进行拼接,三个角度分别为内容、用户和传播。
7.根据权利要求1所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,对于步骤C,设定文本Tn,{T1,T2,...,Tn-1}为Tn的对话序列,对每条文本进行文本编码表示之后,在对话序列上应用句子级attention机制来学习对话序列中不同的文本对于立场分类的作用,得到带有谣言上下文信息的目标文本表示rt,最后送入全连接层进行分类,得到立场分布
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火普天信息技术有限公司,未经武汉烽火普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810537591.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:聊天消息查询方法、装置及设备
- 下一篇:歌曲推荐方法和装置





