[发明专利]一种基于超图注意力网络的社交媒体贴文真实性检测方法有效
| 申请号: | 202110746155.X | 申请日: | 2021-07-01 |
| 公开(公告)号: | CN113254652B | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 李芳芳;宁肯;张盼曦;李伟 | 申请(专利权)人: | 中南大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/901;G06F40/30;G06Q50/00;G06N20/00 |
| 代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 滕澧阳 |
| 地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 超图 注意力 网络 社交 媒体 真实性 检测 方法 | ||
本发明涉及贴文检测的技术领域,公开了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构;S2:对经S1处理后的社交媒体贴文文本数据进行帖子属性特征提取;S3:对经S1处理后的社交媒体贴文文本数据进行帖子文本嵌入;S4:将S2和S3得到的向量拼接,作为超图结构的图节点;S5:将回复分支作为超边,超边与图节点组成的集合,共同构成超图,将超图结构的特征输入图注意力网络学习,从而构建超图注意力网络模型;S6:将S5中超图注意力网络模型用于预测源帖的真实性。本发明构建超图注意力模型,提高模型表达能力。
技术领域
本发明涉及贴文检测的技术领域,尤其涉及一种基于超图注意力网络的社交媒体贴文真实性检测方法。
背景技术
随着互联网上社交媒体的快速发展,诸如Twitter,微博,Facebook这样的社交媒体平台成为了信息传播和信息共享的主要工具。社交媒体打破了人与人之间的物理距离障碍,凭借其参与、公开、交流、对话、连通性、社区化的六大特性,提高了相互交流的频率、加快了相互交流的速度、扩展了相互交流的广度与深度。根据2020年全球数字报告,全球有38亿人正在使用社交媒体平台,其中Twitter的日活跃用户已达到1.45亿,微博的平均日活跃用户达到2.29亿。虽然社交媒体给人们的生活提供了便利,但是在此背景下,由于媒体大批量地生产信息,高速率地传播信息,引发了大数据背景下的信息泛滥的问题。同时,社交媒体平台传播贴文的低成本性也在一定程度上加大了贴文检测的难度。此时,如果没有准确的工具来检测信息的真实性,就可能造成未经核实的信息衍生并传播的问题。
贴文检测变得越来越重要,具有一定准确性的贴文检测可以在许多方面造福于个人甚至于整个社会。识别贴文能够帮助社交媒体供应商对其业务范围进行优化调整。
但在社交媒体时代,贴文检测仍面临着很多现实的挑战。首先,贴文是由传播源展开,由不同回复分支传播的发散结构。到目前为止,为了拟合这种传播结构,还有很多工作要做。由于社交媒体数据的表现形式多样化,内容质量参差不齐等原因,贴文是通过各种社交媒体渠道传播的对事实,事件或公共利益问题的未经证实的陈述或诠释。如何依据贴文文本内容及其传播途径来对贴文进行准确检测已经引起了研究者们的广泛关注。
虽然现有研究在贴文检测任务上取得了一些成绩,但当前贴文检测任务还存在以下的几个问题:
(1)现有方法较少地考虑了贴文特殊的会话结构以及贴文扩散式的传播方式。存在对贴文的传播结构建模不充分的问题。
(2)带有标签的贴文数据中存在数据不平衡的问题。
发明内容
本发明的目的是提供一种基于超图注意力网络的社交媒体贴文真实性检测方法,本发明构建了一个会话-分支-tweet的超图注意力模型(CBT-HGAT),用于从贴文传播和散布中获取结构特征以检测贴文,从而提高模型的表达能力。
为达到上述目的而采用了一种基于超图注意力网络的社交媒体贴文真实性检测方法,具体包括如下步骤:
S1:对社交媒体贴文文本数据的数据预处理,划分为会话,回复分支,帖子的层级结构,源帖子用s表示,回复分支由branch表示,一条源帖子和多个回复分支[branch1,branch2,...,branch
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110746155.X/2.html,转载请声明来源钻瓜专利网。





