[发明专利]一种微博文本跨领域情感分析方法及系统有效
申请号: | 201710627632.4 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107423408B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;多益网络有限公司;广东利为网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510530 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 领域 情感 分析 方法 系统 | ||
本发明提供一种微博文本跨领域情感分析方法,包括以下步骤:S1:使用微博特定集合的微博表情进行自动标注,具体包括:S11:将带有表情的微博数据集A进行分类,具体为:根据基准表情进行分类和通过待挑选表情的进行分类;S12:通过信息增益算法,获得基准表情在待挑选表情下信息增益值value;S13:根据设定的阈值进行判断,对该待挑选的表情进行筛选。S2:进行跨领域情感分析。相比于现有技术,本发明实现了标记表情的自动识别,提高标记表情获取的科学性和可行性,同时使用自动标记方法,标记大量数据,节约了人工成本。
技术领域
本发明涉及文本情感分析方法,特别是一种微博文本跨领域情感分析方法及系统。
背景技术
情感分析,指的是从文本中自动识别和提取具有倾向性的态度、意见和情感。其近年来,主观性文本(意见)挖掘研究十分活跃,主要特点是分析文本中包含的主观观点并计算其语义极性。
而微博由于其巨大影响力,已经成为越来越多的用户发表观点及情感的第一选择,比如对某些名人的喜欢或憎恶、对某些电影的评论、对某些品牌的评价及建议、对某些时事的看法等。对微博进行有效的情感分析研究可广泛应用于舆情监测、品牌建设、广告营销、信息过滤、意见反馈、民意调查等。
而由于微博文本中所涉及的领域较多,需要进行跨领域的情感分析预测。跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。
目前针对文本进行情感分析,需要进行两个方面的工作:对文本进行数据标注和跨领域情感分析。
其中,现有的技术中,在所述数据标注为:训练数据往往需要人工标注,然后再使用机器学习算法进行训练。
而对于跨领域情感分析方法,主要包括以下方法:
方法1:针对每个特定的领域,使用对应的数据,领域本体及其常用的正负向情感词词典,通过句法分析,抽取核心词,预定义句子模版以及通过基于监督或半监督的数据挖掘等方法来判定待分析句子的情感倾向性。
方法2:找出两个领域之间的映射关系;或者说如何寻找两个领域之间特征权值之间的平衡关系。如Structural Correspondence Learning(SCL),是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。Tan et al.于2009将SCL引入了中文跨领域情感分析中。
然而,针对微博平台,其内容在数据量上多,如果进行人工标注,其人工成本大;其次,在类别上包罗万象,从微博用户发表的对特定产品等特定实体的评论,到针对人物、事件等各方面的意见,因此如果要对不同的实体进行区分对待。对每个不同的实体评论进行建模,实体种类多,建模成本高。而在寻找映射关系方面,其关系或者很难寻找,或者需要相当强的数学证明。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种微博文本跨领域情感分析方法及系统。
本发明通过以下的方案实现:一种微博文本跨领域情感分析方法,包括以下步骤:
S1:使用微博特定集合的微博表情进行自动标注,具体包括:
S11:将带有表情的微博数据集A进行分类,具体为:根据基准表情进行分类,将包含所述基准表情的微博分类为B1,将不包含基准表情的微博分类为B0;将包含待挑选表情的微博分类为C1,将不包含待挑选表情的微博分类为C0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;多益网络有限公司;广东利为网络科技有限公司,未经广州多益网络股份有限公司;多益网络有限公司;广东利为网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710627632.4/2.html,转载请声明来源钻瓜专利网。