[发明专利]基于微博的情感词提取收集方法无效
| 申请号: | 201110258876.2 | 申请日: | 2011-09-02 |
| 公开(公告)号: | CN102279890A | 公开(公告)日: | 2011-12-14 |
| 发明(设计)人: | 李寿山;王红玲;周国栋 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
| 地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 情感 提取 收集 方法 | ||
技术领域
本发明属于自然语言处理技术领域,具体地说,是涉及一种基于微博的情感词提取收集方法。
背景技术
随着互联网的不断发展,人们越来越习惯于在网络上表达自己的观点和情感。在网络上存在大量的带有情感倾向性的文本,这些带有情感倾向性文本往往以商品评论、论坛评论、博客的形式存在。为了自动获取和分析此类主观信息,文本情感分析(Sentiment Analysis)的研究得到了迅速发展,受到学术界和商业界的密切关注。
情感词典构建是情感分析任务中的一个基础任务。情感词典有助于帮助自动分类句子级别或者篇章级别的情感极性(例如,正和负,褒和贬等),是众多情感分类方法的基础资源。情感词典的构建的任务可以理解为将词语按照情感倾向分为褒义、中性或者贬义,它是文本情感分析研究中的一个重要的基础任务。
目前,微博是web2.0时代新兴起的一种集成化、开放化的互联网社交服务。它打通了移动通信网和互联网的界限,用户可以通过手机、IM软件和外部API接口等途径,即时向外发布140字以内的文本,越来越受到互联网用户的青睐。数据显示,截止到2011年5月底,仅在Twitter网上的微博注册用户就已达3亿。以新浪微博为例,从2009年8月新浪微博开始发布到2011年4月,仅20个月的时间,新浪微博注册用户便达到1.42亿,用户平均每天要发布近5000万条微博内容。随着微博用户的迅速增长,微博的发布量也在急速增长。重要的是,如此大规模的微博文本中包含了大量的评论文本,这些评论文本中包含的大量情感词,都能很好的反映人们对该微博文本的看法和意见,为文本情感分析的研究提供了丰富的资源。
可是在实际收集工作中,大部分都是基于人工的收集方法,即给定词后,人工判断词语的情感极性。这种方法一个明显的不足就是人工对情感极性的标注代价比较大,不管是时间和经济方面,都需要付出很多。除了人工标注的方法外,也有些是使用自动判断的方法,例如使用HowNet资源的方法进行自动获取词语的情感倾向。但是,这些方法两个共同的不足,一是由于情感词的极性分类效果欠佳,获得的情感词极性正确率不高,二是由于资源的有限性,不能够及时对情感词进行更新。
发明内容
鉴于以上不足,本发明实施例提供了一种基于微博的情感词提取收集方法,即以微博为数据来源,结合情感图标收集评论文本,并使用特征提取方法收集情感词,实现情感词极性的正确率的提高。
本发明提供的一种基于微博的情感词提取收集方法,其包括步骤:接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性;利用所述情绪图标以及主题关键词搜索并收集微博语料;根据所述情绪图标极性对微博语料进行情感分类;对所述微博语料进行分词,并获取所述词的词性标注;从使用特征提取方法所述微博语料中提取情感词,并收集。
从以上技术方案可以看出,本发明实施例提供的情感词提取收集方法,主要是以微博为资源来源,利用少量情绪图标及其极性收集大量的情感语料,再结合特征提取方法抽取情感词,由于微博的文本资源极性丰富,牵涉的领域非常多,并且内容更新速度快,这样收集有利于保障提取收集的情感词的规模和时效性;而且由于情感图标表达情感极性的歧义小,结合特征提取方法,大大提高了收集的情感词的正确率。
附图说明
图1为本发明提供的一种基于微博的情感词提取收集方法中一实施例的方法流程图;
图2为图1所述的提取收集方法中另一实施例的方法流程图。
具体实施方式
下面结合附图,对本发明实施例提供了一种基于微博的情感词提取收集方法作详细说明。
本发明实施例提供的一种基于微博的情感词提取收集方法,请参考图1,其步骤包括:
101、接收情绪图标,并获取与情绪图标相对应的情绪图标极性;
接收从至少一个微博文本中收集到的情绪图标,其中,情绪图标(Emotion Image)是指微博文本中用来表达用户情绪的图标,接着,在接收这些收集到的情绪图标之后,根据预置的情绪图标及其情感极性的对应关系表,获取与收集到的情绪图标相对应的情绪图标极性。
需要提出的是,情绪图标包括正面情绪图标和负面情绪图标,同样,所述情绪图标极性包括正面和负面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110258876.2/2.html,转载请声明来源钻瓜专利网。





