[发明专利]基于局部样本相关性的标记分布中文情感预测方法在审
| 申请号: | 201710661382.6 | 申请日: | 2017-08-04 |
| 公开(公告)号: | CN107391492A | 公开(公告)日: | 2017-11-24 |
| 发明(设计)人: | 贾修一;郑翔 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06F17/30 |
| 代理公司: | 南京理工大学专利中心32203 | 代理人: | 朱宝庆 |
| 地址: | 210094 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 局部 样本 相关性 标记 分布 中文 情感 预测 方法 | ||
1.一种基于局部样本相关性的标记分布中文情感预测方法,其特征在于,包括以下步骤:
步骤1,利用k-means聚类方法将训练集聚类成m个簇,对局部相关性特征矩阵c和聚类中心标签矩阵P进行初始化;
步骤2,利用梯度下降法对目标函数进行最优化,求解原始特征系数矩阵θ、局部相关性特征系数矩阵w和局部相关性特征矩阵c;
步骤3,以数据的原始特征为输入,以上述步骤2求解得到的局部相关性特征矩阵c为输出,利用现有的线性回归方法训练出m个线性回归模型;
步骤4,利用训练好的线性回归模型对测试示例的局部相关性特征进行预测;
步骤5,使用输出模型对测试示例的分布进行预测。
2.根据权利要求1所述方法,其特征在于,步骤1的具体过如下:
设中文情感数据原始特征为X=Rq,数据集中第i个示例对应的情感标记集合其中q为原始特征的维数,L为标签个数,表示第l个标记对示例xi的描述;
给定训练集S={(x1,D1),(x2,D2),…,(xn,Dn)},其中xi∈X是一条示例;
在标签空间上,使用k-means聚类方法将示例聚类成m个簇;
根据聚类结果,对局部相关性特征矩阵c和聚类中心标签矩阵P进行初始化,初始化步骤如下:若示例xi在第j个簇中,则初始化为1,否则初始化为0,其中为局部特征矩阵c中的一个元素,|Gj|为簇中示例的个数,xk为第j个簇中的第k个元素。
3.根据权利要求2所述方法,其特征在于,步骤2的具体过程在于:
建立目标函数如下:
其中,n为样本个数,m为聚类的个数,pj是第j个聚类中心,为局部特征矩阵c中的一个元素,||·||F为矩阵的F范式,λ1、λ2、λ3为三个平衡参数,p(yl|xi;θ,w,c)为p(y|xi;θ,w,c)的第l项,p(y|xi;θ,w,c)为预测的标记分布;
使用梯度下降法对上述目标函数进行最优化,求解参数θ、w和c。
4.根据权利要求3所述方法,其特征在于,步骤5的具体过程在于:
建立输出模型如下:
θl,k1是原始特征系数矩阵的第k1行l列元素,是示例xi的第k1个原始特征,wl,k2是局部样本相关性特征系数矩阵的第k2行l列元素,是示例xi的局部样本相关性向量的第k2个元素;
将测试样本的原始特征、局部相关性特征、原始特征系数矩阵、局部相关性特征系数矩阵代入到输出模型中,对测试样本的情感分布进行预测;
采用六种评价指标度量标记分布算法的性能,分别是Euclidean、Sφrensen、Squaredχ2、K-L、Intersection和Fidelity。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710661382.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文字选择方法及装置
- 下一篇:一种舆情信息提取方法、装置、终端设备及存储介质





