[发明专利]一种利用表情符号对微博进行情感倾向分类的方法有效
| 申请号: | 201310664725.6 | 申请日: | 2013-12-09 |
| 公开(公告)号: | CN103761239B | 公开(公告)日: | 2016-10-26 |
| 发明(设计)人: | 刘春阳;程工;张旭;庞琳;王卿;吴俊杰;王亚琼;李红;韩小汀 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利用 表情符号 进行 情感 倾向 分类 方法 | ||
技术领域
本发明涉及一种利用表情符号对微博进行情感倾向分类的方法。
背景技术
微博现今已经成为互联网上最耀眼的新兴互动平台,用户广泛接受并积极参与,其应用价值迅速获得认可。据2012年1月16日CNNIC发布的《第29次中国互联网络发展状况调查统计报告》统计,截至2011年12月底,中国网民规模突破5亿,微博用户数达到2.5亿,目前有近半数网民在使用,比例由2010年的13.8%增至2011年底的48.7%,微博较上一年底增长了296.0%。2.4亿多用户,每秒就能生成超过1000条微博。微博仅用一年时间就发展成为近一半中国网民使用的重要互联网应用。微博因为每次发布的文本相当短,又与博客应用不同的是,微博最初的使用方法就是用手机短信发送信息而不是通过电脑,这体现了微博的几个重要的特点:1.灵活性,用户无需像博客那样必须坐在电脑面前才能发布信息,而是随时随地;2.文本短,微博的内容都极为简洁,如twitter的文字上限为140个字符,中文微博大多为140个汉字,表达的信息非常有限;3.随意性,除了一些新闻媒体和机器人账号以外,大部分普通用户使用都不是为发表新闻而使用微博的,多数内容都是一时的所见所想,以及对别人发表内容的回复或转发等。此外,微博还具有极大的开放性,微博上的内容绝大部分是公开的,这意味着任何人进入微博后都能看到任何人的所有公开的微博,因此在微博上能获取的信息量极大。
由于微博这样的短文本有没足够的词语共现、特征稀疏,因此传统的分类方法,如“词袋法”就不能很好地作用在短文本上。如何对微博这样包含大量主题、形式随意的短文进行分类,已经成了文本挖掘领域的研究新阵地。
人们在博客、微博和各种网上社交网络上不断发表着自己对政治、经济、运动等话题的观点、看法。这样的基于文本的社会媒体平台的兴起,使得主题广泛的、海量的、带有观点的文本数据大量涌出,因此人们将目光聚集在数据挖掘上,期待能够自动区分这些带有观点和兴趣的内容,监测公众的观点、态度,展现线上社会群体的情绪,作为许多有价值的实时应用的基础。
发明内容
本发明设计开发了一种根据表情符号对微博进行情感倾向分类的方法。
本发明提供的技术方案为:
一种利用表情符号对微博进行情感倾向分类的方法,包括:
步骤一、创建中性情感集、消极情感集和积极情感集,具体为:
a、选取在两年中的新浪微博中使用次数超过20万次的表情符号m个,作为种子表情符号,对选取的每个种子表情符号都抽取包含这个表情符号的微博n条作为第一微博集,每个第一微博集包含n条第一微博,从m×n条第一微博的文本中提取重现性在前100的词作为高频词,对每个种子表情符号都选取包含有这个表情符号的微博p条,作为第二微博集,每个第二微博集包含p条第二微博,观察m×p条第二微博文本内容,若一条第二微博中包含的高频词与该条第二微博的文本的情感倾向一致,则认为该条第二微博中包含的种子表情符号的情感倾向明显,并提取该条第二微博中的种子表情符号作为基准表情符号,人工将基准表情符号分类为积极情感和消极情感;
b、所有积极情感的基准表情符号和所有含有积极情感的基准表情符号的第一微博组成积极情感集,所有消极情感的基准表情符号和所有含有消极情感的基准表情符号的第一微博组成消极情感集;
c、定义:新闻没有情感倾向,作为中性情感的微博,选取新浪微博中的新闻用户在两年中发布的微博,作为中性情感集中的中性微博,其中,选取的中性微博的数量与消极情感集和积极情感集中的第一微博之和相等;
步骤二、利用中性情感集、消极情感集和积极情感集,建立中性情感贝叶斯分类器;利用由消极情感集和积极情感集,建立极性情感贝叶斯分类器;
步骤三、利用中性情感贝叶斯分类器和极性情感贝叶斯分类器对待测微博进行情感分类,具体为:若待测微博中含有表情符号,则提取待测微博中的表情符号为待测表情符号,将待测表情符号与积极情感集中的基准表情符号和消极情感集中的基准表情符号对比,若待测微博中只含有与积极情感集中的基准表情符号匹配的待测表情符号或只含有与消极情感集中的基准表情符号匹配的待测表情符号,则定义该待测微博为的情感为与该待测微博中含有的表情符号的情感倾向相同的情感倾向,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310664725.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种注射用紫杉醇纳米晶体及其制备方法
- 下一篇:制冷装置





