[发明专利]一种基于异质图随机游走的中文微博客观点探测方法有效
申请号: | 201410504376.6 | 申请日: | 2014-09-28 |
公开(公告)号: | CN104268230B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 陈国龙;廖祥文;黄弈超 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 异质图 随机 游走 中文 博客 观点 探测 方法 | ||
技术领域
本发明涉及观点挖掘技术领域,更具体地,涉及一种基于异质图随机游走的中文微博客观点探测方法,能应用于多话题主流观点的发现和排序,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。
背景技术
在现有技术中,有很多技术方法可用于网民群体观点探测。传统的观点挖掘方法通过文本的倾向性分析进行观点挖掘,这些方法包括观点识别、观点检索、观点要素抽取、垃圾评论识别等。对这些方法进一步分类,大致包括两个方面。一方面采用基于观点词表的简单统计模型、基于机器学习的方法和基于自然语言处理的观点挖掘模型等方法来挖掘网民观点,这些方法主要利用了观点词表、上下文信息、句子级信息、词位置邻近关系、词背景知识等文本信息。另一方面借助当前信息检索和文本挖掘领域的最新模型提出了基于一体化模型的观点检索算法检索网民对特定话题的观点看法,典型的有:基于词典的产生式倾向性检索模型、基于观点词查询扩展的观点相关模型、基于主题-观点混合的主题模型、基于外部数据集的产生式语言模型等。基于一体化模型的观点挖掘由于具有坚实的统计理论基础、更容易解释,在观点挖掘相关研究工作中被广泛研究。
然而,这些方法主要从文本内容角度出发分析挖掘网民群体观点,缺乏考虑“网民”的信誉度、影响力等用户关系对观点度量的影响。并且,社会媒介的数据蕴含非常丰富可以利用的数据特征:网页之间的链接关系、用户之间的好友关系、网页内容的转载关系、用户之间的隐性交互关系等。
在现有技术中,存在着一些基于图模型的方法被广泛应用于对社会媒介数据的挖掘。它擅长针对对象之间的各种联系建立模型,并根据模型对社会媒介中的对象进行排序。如何基于对象之间的相互关系构建适应各种任务需求的网络图是基于图模型方法的基础。典型的方法有基于网页的出、入链构建网页链接图对网页进行排序;搜索引擎的PageRank算法;HITS算法;LexRank算法;个性化PageRank算法;流形学习模型等。这些方法通过定义网络图空间中对象之间的度数、距离长短等,采用随机游走算法或流形学习模型挖掘对象的信誉度或影响力。
然而,这些基于图模型的方法并没有充分地被使用在观点探测中。
现有的观点探测方法没有充分考虑新型短文本媒体的社会化特征。随着近年来微博客这类社交媒介消息的不断产生,产生了大量的富含网民观点的数据资源,并需要通过数据挖掘技术来发现其中的热点话题、意见领袖等信息,这就对观点探测技术提出了一个挑战:如何构建一个统一有效的观点探测系统来满足针对微博客进行观点挖掘的需要。因此,迫切需要有一种高效准确的观点探测方法,该方法应能够在具有多个话题的微博数据中发现话题关键词、构建出微博关系图,探测每个话题的主流观点,同时能够在不同的微博类网站、不同领域方便地使用。
发明内容
本发明的目的在于提供一种基于异质图随机游走的中文微博客观点探测方法,该方法探测速度快、准确度高,通用性强,适用范围广。
为实现上述目的,本发明的技术方案是:一种基于异质图随机游走的中文微博客观点探测方法,包括以下步骤:
步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式;
步骤2:从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;
步骤3:基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表。
进一步的,在步骤1中,所述去除噪声的规则为去除微博中的以下内容:
a) 网页链接;
b) 特殊字符;
c) 广告相关的特殊字符;
d) 表达情感的拟声词。
进一步的,在步骤2中,采用类TF*IDF计算每个词对于相应话题的权重方法如下:
其中,t表示微博集合中按话题划分的子集,tfj(wi)表示第i个词在第j个话题的微博集合中出现的频次,T代表话题的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410504376.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生态覆被特征表征方法
- 下一篇:打包台架