[发明专利]一种基于主题词的社交媒体事件主题识别方法有效
申请号: | 201910766747.0 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110457711B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 费高雷;李家传;于富财;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F16/35 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题词 社交 媒体 事件 主题 识别 方法 | ||
本发明公开了一种基于主题词的社交媒体事件主题识别方法,包括以下步骤:S1、对社交媒体文本进行降噪处理;S2、计算词和事件关于主题的分布向量;S3、提取社交媒体文本中事件主题词;S4、构建基于主题词的贝叶斯推断模型。本发明的事件主题词提取算法利用了词与事件关于主题分布的差异计算提取主题词,该算法计算复杂度低且提取准确率高,适用于大数据量的在线主题词提取;本发明提出的基于贝叶斯推断的事件主题分类算法,能够高效分类事件主题,具有较高的分类准确率和实用性,且本发明提出的算法不依赖特征工程,对于不同的主题分类任务更换训练集重新训练即可再次使用,可移植性高。
技术领域
本发明涉及一种基于主题词的社交媒体事件主题识别方法。
背景技术
社交媒体中的事件是指在现实世界中特定时间地点实际发生的重要事情,它在社交网络中借由文本等数据形式得以保存和传播。社交媒体事件主题识别是近年来随着互联网的发展和社交媒体的出现而兴起的新的研究方向,它的研究目的在于将充斥于社交媒体上的事件文本进行主题分类。在互联网高速发展,各种网络应用普及的背景下,社交网络作为网络应用中最受欢迎的应用之一,在全球范围内拥有大量的用户。由于社交网络具有信息发布快速及时及传播范围广的特点,许多事件发生后第一时间就会被用户发送并在社交网络上传播开来,但是由于社交网络数据量庞大,造成用户难以获取想要的事件的相关信息。因此,通过事件主题分类方法,可以识别出用户感兴趣主题的事件推文,并向用户定向推送,方便用户的信息获取。
社交媒体事件主题识别研究尚未形成成熟的方法体系,因此现阶段主要使用传统的文本挖掘技术来进行事件主题识别。现有的传统文本分类方法主要分为基于无监督学习的主题模型方法和基于有监督学习的传统机器学习方法。
基于无监督学习的主题模型是用于发现大量文档潜在主题的统计模型方法,它将每篇文档视为由多个主题组成,文档中每个词由其中一个主题生成,最终将每篇文档的主题以概率分布的形式给出。文本分类中常用的主题模型包括LDA和PLSA。LDA通常被视为由文档层、主题层和词语层组成的三层贝叶斯模型,它基于贝叶斯定理将三层联系起来,来识别文档中的潜在主题。LDA不需要人工标注训练集,只需要输入文本集和指定需要输出的主题数量。但是LDA在处理社交文本主题分类时,由于社交网络中词语拼写不规范以及如#hashtag和URL等实体数量较多,导致词汇的向量表示稀疏,同时社交网络推文由于限制140字符的长度,所以携带的有用信息较少,所以导致主题模型在有噪声的社交网络短文本上效果较差。
基于有监督学习的机器学习方法通过训练集训练一个从文本特征到事件主题的映射模型,由该映射模型对未知文本进行分类。这种方法需要使用特征工程对每篇待分类文档进行特征提取,将文档表示为向量,然后使用机器学习方法训练一个分类器(如SVM)对文档进行分类。将文档表示为向量需要进行特征提取,通常的特征提取方法包括词袋法和基于任务的特征提取。词袋法将文本分割为以单一词语或者单词组成的多元词组表示,如果不考虑词频则可以进行one-hot编码,单词出现则将相应位置表示为1,否则以0表示,若考虑词频则可将向量相应位置表示为对应的词频来表示词的重要性。TF-IDF是词袋法的典型方法。另一种特征提取方法基于分类任务本身构建特征,例如对于分类政治与非政治事件,则可将政治相关词的出现比例作为分类器输入向量的重要一维。如果一簇推文属于政治事件,则推文中“vote”、“election”等单词的出现比例就会比较高。同时对于社交网络文本,其特有的实体特征也是对事件进行主题分类的重要特征,例如对于恐怖袭击事件,其推文中@username的提及账号属于极端分子的比例越高,则该簇推文属于恐怖袭击的概率就越高。但是上述方法没有对词汇进行针对性选择,导致词汇向量表示维度过高,特征表示稀疏。同时该方法依赖于特征工程构建特征,在将该方法迁移到其他分类任务时需要重新构建特征,而特征的构建依赖于使用者的经验,导致方法的可移植性较差,测试集变化时分类准确率较低。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910766747.0/2.html,转载请声明来源钻瓜专利网。