[发明专利]标签嵌入的微博文本情绪多标签分类方法有效

申请号：	201910345877.7	申请日：	2019-04-26
公开（公告）号：	CN110046356B	公开（公告）日：	2020-08-21
发明（设计）人：	不公告发明人	申请（专利权）人：	中森云链（成都）科技有限责任公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	610041 四川省成都市高***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标签嵌入文本情绪分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

标签嵌入的微博文本情绪多标签分类方法，通过将多标签看作特殊单标签，直接利用标签嵌入算法，来解决多标签分类问题。本发明首先根据原始多标签间的欧式距离及代价信息，利用多维定标方法将各个多标签嵌入到嵌入空间中，然后将微博文本进行特征提取及表示，再训练情绪多标签编码器，学习多标签嵌入的函数，并训练从文本特征空间映射到嵌入空间的分析器，最后利用分析器及编/解码映射关系来预测文本情绪。

技术领域

本发明属于自然语言处理领域，涉及一种将标签嵌入应用于多标签分类的方法。

背景技术

随着人们对社交平台的普遍使用，微博作为一个重要的社交平台，已经成为人们表达观点和宣泄情绪的重要方式之一。海量的微博文本中蕴含着许多潜在的有价值信息，这些信息可以反映出用户对某事物的态度和喜好，因此微博文本情绪可以作为向用户推荐商品、文章及相关服务的重要参考方式。

近几年来，现有工作提出了多种解决文本情绪分析的方法。但是许多方法的实际效果并不理想。比如，某些研究虽然采用机器学习的方法，但是仅将情绪分类问题看作单标签分类问题，并未考虑到文本情绪复杂性。然而情绪往往比较复杂，即使一条短文本中也可能包含多种情绪，使得提取出的文本特征不够准确。因此，传统的多标签分类可能对最终分析结果不够准确。

已有的文本情绪分析方面的研究已经提出了不同的解决方法，但很多方法的实际效果并不理想，例如：①基于词典的方法未能深入考虑到文本上下文信息，使得提取出的文本特征不够准确；②某些研究虽然采用机器学习的方法，但是仅将情绪分类问题看作单标签分类问题，并未考虑到文本情绪复杂性。然而情绪往往比较复杂，即使一条短文本中也可能包含多种情绪，所以将情绪分类问题看作单标签分类问题可能使最终分析结果不够准确；③某些研究即使将情绪分析问题看做多标签分类问题，但其中部分研究将情绪多标签看作多个单标签的组合，然后对每个标签分别训练分类器，最后将每个分类器结果作为最终预测结果，该种策略是一类较主流的方法，但实际分类效果往往依赖于一系列人为设定的阈值，使人为因素对分析效果造成较大影响。

为了解决现有工作的不足，我们提出一种结合多标签嵌入的多标签分类模型。我们贡献在于如下两个方面：第一，我们的模型在嵌入过程中同时考虑欧式距离和海明损失信息，提高了标签嵌入效果；第二，我们的模型可以解决新标签缺失问题，并且为嵌入标签向量解码构建相应的映射关系，这种映射关系能够对预测出的嵌入向量进行解码，最终输出预测的情绪多标签，提高了对新标签的嵌入有效性和标签映射关系对嵌入标签解码的有效性。

发明内容

该发明是在微博文本情绪上采用标签嵌入算法而开发的多标签分类系统，通过同时考虑欧式距离和海明损失信息，提高标签嵌入效果，从而提高多标签分类的性能。

本发明的技术方案是：一种采用标签嵌入的多标签分类方法，其特征在于，包括以下步骤：

步骤1：收集微博文本数据，并进行预处理。

步骤2：将每个情绪多标签看作一种特殊单标签，如果多标签中某一单标签值不同则该多标签便被视作不同的标签。然后根据原始标签间的欧氏距离及代价信息嵌入到较低维的嵌入空间。

通过欧式距离函数，得到计算真实标签y_i与预测标签之间的距离，其分解模型如下：

其中，y＝{y₁,y₂,...,y_k}为标签集合，y是8维的情绪标签，d_ij表示标签y_i与y_j的距离，y_im表示标签y_i中第m个向量值，同理

通过海明损失函数，计算标签代价矩阵，其分解模型如下：

计算标签嵌入信息diff，其分解模型如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中森云链（成都）科技有限责任公司，未经中森云链（成都）科技有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】