[发明专利]基于局部样本相关性的标记分布中文情感预测方法在审

申请号：	201710661382.6	申请日：	2017-08-04
公开（公告）号：	CN107391492A	公开（公告）日：	2017-11-24
发明（设计）人：	贾修一;郑翔	申请（专利权）人：	南京理工大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62;G06F17/30
代理公司：	南京理工大学专利中心32203	代理人：	朱宝庆
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于局部样本相关性标记分布中文情感预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种情感预测技术，特别是一种基于局部样本相关性的标记分布中文情感预测方法。

背景技术

标记多义性问题是当前机器学习领域的热门研究方向。目前比较成熟的解决标记多义性的范式有两种，分别是单标记学习(Single-lable learning)和多标记学习(Multi-lable learning)。在单标记学习框架中，一个示例仅对应于一个标签，而在多标记学习中，一个示例可能有多个标签与之对应。多标记学习是对单标记学习的拓展。通过大量的研究和实验表明，多标记学习是一种有效且应用场景更广泛的学习范式。但是仍有一些问题不适合使用多标记学习解决，例如，在某些情况下，我们不仅仅需要一句话与哪些情感相关联，更需要知道每个情感对这句话的描述程度。为了解决这类问题，标记分布学习被提了出来。标记分布学习是对多标记学习的进一步拓展，与多标记学习输出一个标记集合不同，标记分布学习输出的是一个标记分布，分布中的每个分量表示对应标记对示例的描述程度(简称描述度)。标记分布学习是一种使用场景更广的学习范式，能够解决更多的标记多义性问题。

目前针对标记分布学习，设计算法的策略主要有三种。第一种策略是问题转换。这种策略首先将标记分布学习问题转换为单标记学习等问题后，在利用相应范式中已有算法进行求解，然后再将输出结果转换为标记分布。第二种策略是算法调整。这种设计策略没有将标记分布学习问题转换成其它学习范式问题进行求解。这种策略先是寻找一些可以解决多变量回归问题的算法，然后对这些算法进行调整来解决标记分布学习。第三种策略是针对标记分布学习设计专门的算法。这种策略没有问题转换过程，直接求解标记分布学习问题。并且和第二种策略不同，使用这种策略可以直接输出标记分布，不需要对输出结果进行转换。

现有的标记分布算法很少考虑标记间的相关性，或只考虑了全局的标记相关性，但在现实生活中，标记间的相关性通常是局部的。在本文中，我们尝试利用局部样本中的标记相关性，提出了一种新的标记分布算法。我们假设示例可以分成不同的簇，每个簇中示例的标记相关性都是一样的。为了表示局部标记相关性的影响，我们为每个示例构建了一个局部相关性向量，作为该示例额外的特征，局部相关性向量中的每一项代表每个局部样本对该示例的影响。

发明内容

本发明的目的在于提供基于局部样本相关性的标记分布中文情感预测方法，包括：

步骤1，利用k-means聚类方法将训练集聚类成m个簇，对局部相关性特征矩阵c和聚类中心标签矩阵P进行初始化；

步骤2，利用梯度下降法对目标函数进行最优化，求解原始特征系数矩阵θ、局部相关性特征系数矩阵w和局部相关性特征矩阵c；

步骤3，以数据的原始特征为输入，以上述步骤2求解得到的局部相关性特征矩阵c为输出，利用现有的线性回归方法训练出m个线性回归模型；

步骤4，利用训练好的线性回归模型对测试示例的局部相关性特征进行预测；

步骤5，使用输出模型对测试示例的分布进行预测。

本发明中利用局部样本中的标记相关性，提出了一种新的标记分布算法，将示例分成不同的簇，每个簇中示例的标记相关性都是一样的并未每个示例构建一个局部相关性向量，作为该示例额外的特征，局部相关性向量中的每一项代表每个局部样本对该示例的影响。基于局部样本相关性的标记分布中文情感预测方法具有较好性能。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1为本发明的方法流程图。

具体实施方式