[发明专利]一种基于主题词的社交媒体事件主题识别方法有效
申请号: | 201910766747.0 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110457711B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 费高雷;李家传;于富财;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F16/35 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题词 社交 媒体 事件 主题 识别 方法 | ||
1.一种基于主题词的社交媒体事件主题识别方法,其特征在于,包括以下步骤:
S1、对社交媒体文本进行降噪处理;
S2、计算词和事件关于主题的分布向量;具体实现方法为:
事件关于主题的分布为:给定预定义的主题集合T={t1,t2...tn},同时给定人工标注的训练集合S={(e1,t1),(e2,t2)...(en,tn)},其中e表示事件簇所包含的所有推文集合,t表示人工对事件簇标记的事件主题,由集合S计算出的所有事件关于主题t的分布V(t);
词关于主题的分布为:给定预定义的主题集合T,训练集合S,由集合S计算出的词关于主题t的分布W(t),其中W(t)表示每个词在话题集合T中的分布向量;
由上述关于词的主题分布的定义,得到词的分布向量的计算过程如下所示:
其中count(w,ti)表示单词w在ti下的频数,count(w)表示w在所有话题下的出现总次数;
由上述关于事件的主题分布的定义,得到事件的分布向量的计算过程如下所示:
其中,count(e,ti)表示主题ti下事件的频数,count(e)表示在所有主题下e的总出现频数;
S3、提取社交媒体文本中事件主题词;
S4、构建基于主题词的贝叶斯推断模型。
2.根据权利要求1所述的一种基于主题词的社交媒体事件主题识别方法,其特征在于,所述步骤S1包括以下子步骤:
S11、停止词去除;
S12、词干提取和词形还原;
S13、使用Jaccard系数合并形近词;Jaccard系数用于衡量两个集合的相似性,给定两个集合A、B,Jaccard系数定义为:
通过将两个单词word1与单词word2分别看作字符的集合,分别将其分解为字符的集合w1和w2,定义两个单词的Jaccard系数为J(w1,w2);设置词的相似性阈值为Jmin,即若单词的相似度J(w1,w2)≥Jmin,则认为两个单词为同一个正确单词的错误拼写形式,将这些词视为同一个词。
3.根据权利要求1所述的一种基于主题词的社交媒体事件主题识别方法,其特征在于,所述步骤S3具体实现方法为:使用相对熵KL散度来作为主题词的判断依据;
定义事件主题词如下:一个词是事件主题词必然满足下述条件:
其中,KLmin表示预设的主题词筛选阈值,W(t)表示每个词在话题集合T中的分布向量,V(t)表示由集合S计算出的所有事件关于主题t的分布向量。
4.根据权利要求1所述的一种基于主题词的社交媒体事件主题识别方法,其特征在于,所述步骤S4具体实现方法为:通过对社交媒体文本的统计分析,计算出每个词关于主题的分布,根据最大似然估计的角度,使用p(t/w)表示单词w能够区分事件主题t的概率;通过聚合每个事件簇中所有的推文,把所有推文文本进行预处理,然后使用主题词提取算法提取出文本中包含的所有主题词;
定义事件主题分类任务为:在给定事件的推文簇Ctweets(e)后,通过使用预处理技术得到其中所有的单词集合Wwords(e),然后利用主题词提取算法得到主题词集合Cwords(e),最后计算出集合Ctweets(e)对应的事件属于每一个主题t的概率值p(t/Cwords(e))
使用p(t/w)表示单词w能够区分事件主题t的概率,使用p(w)表示整个事件簇单词中w所占的比例;定义上述概率的计算公式如下所示:
其中,count(w)表示单词w在数据集中的频数,count(w,t)表示出现于t话题下的w频数,count_all表示所有词的总出现频数;
基于上述概率计算过程计算出事件簇属于每个主题的概率,并且选择具有最高概率的主题作为事件的主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910766747.0/1.html,转载请声明来源钻瓜专利网。