[发明专利]一种基于异质图随机游走的中文微博客观点探测方法有效
申请号: | 201410504376.6 | 申请日: | 2014-09-28 |
公开(公告)号: | CN104268230B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 陈国龙;廖祥文;黄弈超 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 异质图 随机 游走 中文 博客 观点 探测 方法 | ||
1.一种基于异质图随机游走的中文微博客观点探测方法,其特征在于,包括以下步骤:
步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式;
步骤2:从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;
步骤3:基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表;
在步骤2中,采用类TF*IDF计算每个词对于相应话题的权重方法如下:
tfj(wi)=log ni,j
其中,t表示微博集合中按话题划分的子集,tfj(wi)表示第i个词在第j个话题的微博集合中出现的频次,T代表话题的个数;
然后按照tfj(wi)*idf(wi)值的大小来描述第i个词对于第j个话题的重要性,选取排名靠前的词得到话题相关的关键词集合;
在步骤3中,所述微博帖子的特征向量由两部分构成:
a)微博帖子中包含的关键词;
b)按小时划分的时间戳信息;
在步骤3中,所述微博图的构建方法,包括以下步骤:
步骤a1;分别以微博用户、微博帖子、关键词为节点,根据微博用户之间的关注与被关注关系,将微博用户节点相连;根据微博用户与微博帖子之间的发布关系,将微博用户节点与微博帖子节点相连;根据微博用户发布的微博帖子与关键词之间的包含关系,将微博用户节点与关键词节点相连;
步骤a2:根据微博帖子之间的相似度关系,将余弦相似度大于0的微博帖子节点相连;根据微博帖子与关键词之间的包含关系将微博帖子节点与关键词节点相连;
步骤a3:根据关键词在同一微博帖子的共现关系,将关键词节点相连;
在步骤3中,所述微博图中各节点的得分的计算方法为:
Score(r)(w)、Score(r)(p)、Score(r)(u)分别表示关键词、微博帖子和微博用户节点在第r轮迭代时候的评分;Sim(pi,pj)表示微博帖子pi和pj的余弦相似度,adj[pi]表示与微博帖子pi相连的微博集合;
Pui表示微博用户ui发布的微博帖子,w表示微博用户ui发布微博用到的关键词,flw[ui]表示微博用户ui的粉丝集合,frd[uj]表示微博用户uj关注的微博用户集合;
Pwi表示包含有关键词wi的微博帖子,wj是和关键词wi出现在相同微博帖子中的关键词,adj[wj]表示和关键词wi相连的关键词集合,Uwi表示使用了关键词wi的微博用户集合;
通过迭代上述的公式收敛得到微博帖子、微博用户、关键词三类节点的排序结果。
2.根据权利要求1所述的一种基于异质图随机游走的中文微博客观点探测方法,其特征在于,在步骤1中,所述去除噪声的规则为去除微博中的以下内容:
a)网页链接;
b)特殊字符;
c)广告相关的特殊字符;
d)表达情感的拟声词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410504376.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生态覆被特征表征方法
- 下一篇:打包台架