[发明专利]一种基于主题词的社交媒体事件主题识别方法有效

专利信息
申请号: 201910766747.0 申请日: 2019-08-20
公开(公告)号: CN110457711B 公开(公告)日: 2021-02-02
发明(设计)人: 费高雷;李家传;于富财;胡光岷 申请(专利权)人: 电子科技大学
主分类号: G06F40/289 分类号: G06F40/289;G06F16/33;G06F16/35
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 王伟
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题词 社交 媒体 事件 主题 识别 方法
【权利要求书】:

1.一种基于主题词的社交媒体事件主题识别方法,其特征在于,包括以下步骤:

S1、对社交媒体文本进行降噪处理;

S2、计算词和事件关于主题的分布向量;具体实现方法为:

事件关于主题的分布为:给定预定义的主题集合T={t1,t2...tn},同时给定人工标注的训练集合S={(e1,t1),(e2,t2)...(en,tn)},其中e表示事件簇所包含的所有推文集合,t表示人工对事件簇标记的事件主题,由集合S计算出的所有事件关于主题t的分布V(t);

词关于主题的分布为:给定预定义的主题集合T,训练集合S,由集合S计算出的词关于主题t的分布W(t),其中W(t)表示每个词在话题集合T中的分布向量;

由上述关于词的主题分布的定义,得到词的分布向量的计算过程如下所示:

其中count(w,ti)表示单词w在ti下的频数,count(w)表示w在所有话题下的出现总次数;

由上述关于事件的主题分布的定义,得到事件的分布向量的计算过程如下所示:

其中,count(e,ti)表示主题ti下事件的频数,count(e)表示在所有主题下e的总出现频数;

S3、提取社交媒体文本中事件主题词;

S4、构建基于主题词的贝叶斯推断模型。

2.根据权利要求1所述的一种基于主题词的社交媒体事件主题识别方法,其特征在于,所述步骤S1包括以下子步骤:

S11、停止词去除;

S12、词干提取和词形还原;

S13、使用Jaccard系数合并形近词;Jaccard系数用于衡量两个集合的相似性,给定两个集合A、B,Jaccard系数定义为:

通过将两个单词word1与单词word2分别看作字符的集合,分别将其分解为字符的集合w1和w2,定义两个单词的Jaccard系数为J(w1,w2);设置词的相似性阈值为Jmin,即若单词的相似度J(w1,w2)≥Jmin,则认为两个单词为同一个正确单词的错误拼写形式,将这些词视为同一个词。

3.根据权利要求1所述的一种基于主题词的社交媒体事件主题识别方法,其特征在于,所述步骤S3具体实现方法为:使用相对熵KL散度来作为主题词的判断依据;

定义事件主题词如下:一个词是事件主题词必然满足下述条件:

其中,KLmin表示预设的主题词筛选阈值,W(t)表示每个词在话题集合T中的分布向量,V(t)表示由集合S计算出的所有事件关于主题t的分布向量。

4.根据权利要求1所述的一种基于主题词的社交媒体事件主题识别方法,其特征在于,所述步骤S4具体实现方法为:通过对社交媒体文本的统计分析,计算出每个词关于主题的分布,根据最大似然估计的角度,使用p(t/w)表示单词w能够区分事件主题t的概率;通过聚合每个事件簇中所有的推文,把所有推文文本进行预处理,然后使用主题词提取算法提取出文本中包含的所有主题词;

定义事件主题分类任务为:在给定事件的推文簇Ctweets(e)后,通过使用预处理技术得到其中所有的单词集合Wwords(e),然后利用主题词提取算法得到主题词集合Cwords(e),最后计算出集合Ctweets(e)对应的事件属于每一个主题t的概率值p(t/Cwords(e))

使用p(t/w)表示单词w能够区分事件主题t的概率,使用p(w)表示整个事件簇单词中w所占的比例;定义上述概率的计算公式如下所示:

其中,count(w)表示单词w在数据集中的频数,count(w,t)表示出现于t话题下的w频数,count_all表示所有词的总出现频数;

基于上述概率计算过程计算出事件簇属于每个主题的概率,并且选择具有最高概率的主题作为事件的主题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910766747.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top