[发明专利]一种基于语义的弱监督微博多情感词典扩充方法有效

专利信息
申请号: 201710719716.0 申请日: 2017-08-21
公开(公告)号: CN107688630B 公开(公告)日: 2020-05-22
发明(设计)人: 刘磊;孙孟涛;贾亚璐;陈浩 申请(专利权)人: 北京工业大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F40/30
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 监督 多情 词典 扩充 方法
【说明书】:

发明公开一种基于语义的弱监督微博多情感词典扩充方法,包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。本发明方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。

技术领域

本发明属于文本信息处理领域,具体是涉及一种基于语义的弱监督微博多情感词典扩充方法。

背景技术

微博是一个全球范围的用户信息分享平台,用户通过发布文本或图片的形式实现信息的分享和传播。近年来微博网站高速发展,中文微博以“新浪”微博、“腾讯”微博为代表,英文微博以“Twitter”、“Facebook”为代表。微博的发展加速了信息的传播速度。但随着信息获取便利的同时,人们从海量数据中获取知识的效率也在降低。

传统文本的分类已经不能满足人们对网络即时信息的分类要求。如何根据微博内容自动判断人们所要表达的情感,从而快速获取不同情感属性的微博,就成为了一个重要的问题。

微博情感自动分类技术可以帮助相关公司企业及政府部门有效地收集社会热点事件的情感反馈,分析微博中的不同观点,为制定策略提供了一个高效可靠的依据。

情感分类中一个基本问题就是情感词获取,即情感词典的建立。情感词典的质量直接影响到分类的最终效果,而很多情感词典针对性弱且情感词数量不能满足分类要求。使用人工标注的情感词典不仅费时费力,而且无法解决海量微博中的文本不规则性、语义表达丰富性等问题。

在情感词典构建中,多情感词典构建更是其中的难点。不同于正负情感词典,人的情感种类丰富,如何定义情感的类型,如何确定词的情感类型,如何解决情感词的不平衡问题等是多情感词典构建亟需解决的问题。

发明人通过改进word2vec算法,建立了可自动获取且针对性较强的微博多情感词典,并根据网络情感表达方式,建立了情感词典扩充规则。生成的情感词典减少了人工标注费时费力的问题,有效提高了情感分类精度和效率。

发明内容

本发明针对多分类情感词的扩充问题,提出了一种基于语义的弱监督微博多情感词典扩充方法及系统。主要内容包括:建立候选种子词典;通过词频权重和熵权重对候选种子情感词过滤;以word2vec算法获取候选情感词,并通过统计方法验证;用基于规则方法补充情感词典。实验结果表明,该方法有效扩充了多情感词典,并减少了多情感词典中情感词的数量不平衡问题。

多情感类型被定义为:开心、悲伤、生气、害怕、厌恶、喜欢、惊讶7种。每种情感在多情感词典中都有一组情感词相对应。建立多情感词典的种子情感词必须要求覆盖面广、情感倾向准确,而且必须保证不同情感类型情感词的平衡性。

为实现上述目的,本发明采用如下的技术方案

一种基于语义的弱监督微博多情感词典扩充方法,包括以下步骤:

步骤(1)微博语料获取和预处理

首先获取中文微博语料,然后对微博语料进行必要的预处理,包括繁体简体转换、分词及词性标注、去除外国词语和多余空格。预处理后的文本只保留汉字、词性标记及标点,记作G。

步骤(2)候选种子情感词获取及扩充词获取

由于在大规模语料中很难自动获取符合要求的种子情感词,因此必须在获取候选种子情感词后,再经过统计验证。

步骤(2.1)过滤微博语料G中词性,只保留G中的名词、形容词、动词,过滤后的微博语料记为G’。

步骤(2.2)统计G’中所有词的词频,将G中所有词按词频降序排序,从排名前p%内词中,人工选取情感词作为候选情感词,p为词频排名百分比阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710719716.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top