[发明专利]一种基于半监督学习的用户评论聚类方法有效
| 申请号: | 201811539726.7 | 申请日: | 2018-12-17 |
| 公开(公告)号: | CN109783638B | 公开(公告)日: | 2021-04-06 |
| 发明(设计)人: | 周宇;苏彦颀;史志成;杨忻莹;黄志球 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F40/30 |
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 贺翔 |
| 地址: | 210016 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 学习 用户 评论 方法 | ||
1.一种基于半监督学习的用户评论聚类方法,其特征在于,包括步骤如下:
(1)将用户评论处理成后续操作所需的形式;
(2)将处理后的用户评论转换成向量空间模型并用主成分分析进行降维;
(3)使用N-gram确定用户评论的聚类簇数目K值;
(4)构建必连约束和勿连约束;
(5)使用COP-Kmeans聚类算法进行用户评论聚类;
所述步骤(3)中使用N-gram确定用户评论的聚类簇数目K值具体包括:获取用户评论的N-gram短语,其中N取值为2,将相同的N-gram短语合并,并记录合并次数,删除合并次数小于2的N-gram短语,剩余的N-gram短语个数就是聚类簇数目K值。
2.根据权利要求1所述的基于半监督学习的用户评论聚类方法,其特征在于,所述步骤(1)中将用户评论处理成后续操作所需的形式具体包括:对用户评论采用ARdoc分类器,划分成句子级别并且进行分类,提取所分类别中特征需求和问题发现这两个类别,再将这两个类别中的句子采用Stanford nlp工具包中的parser解析器解析成语法树,采用自底向上的处理方法分解成原子语句,最后使用Stanford nlp工具包中的lemma组件将所得数据中的单词还原成单词的原形。
3.根据权利要求1所述的基于半监督学习的用户评论聚类方法,其特征在于,所述步骤(2)中将处理后的用户评论转换成向量空间模型并用主成分分析进行降维具体包括:采用向量空间模型来表示处理后的用户评论,处理后的用户评论中的所有单词构成了向量空间,每个单词代表向量空间中的一个特征,最后再使用主成分分析对向量空间模型降维,使用文档频度df来表示每个单词在向量空间模型中的权重,其中文档频度df的计算方式为:
其中,是单词wx在所有用户评论中出现的次数。
4.根据权利要求3所述的基于半监督学习的用户评论聚类方法,其特征在于,所述步骤(2)中采用的向量空间模型是把对文本内容的处理简化为向量空间中的向量运算,且向量空间模型以空间上的相似度表达语义的相似度,即将所有用户评论中涉及到的所有单词作为向量空间,每个单词代表向量空间中的一个特征;对于一个用户评论,其包含的单词对应向量空间的特征值为该单词的文档频度df,不包含的单词对应向量空间的特征值为0。
5.根据权利要求3所述的基于半监督学习的用户评论聚类方法,其特征在于,所述步骤(2)中使用的主成分分析是一种降维的统计方法,其借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,表现为将原随机向量的协方差阵变换成对角形阵,对多维变量系统进行降维处理,使其以高精度转换成低维变量系统,采用主成分分析,将处理后的用户评论转换成的向量空间模型从高维度降到低维度。
6.根据权利要求1所述的基于半监督学习的用户评论聚类方法,其特征在于,所述步骤(4)构建必连约束和勿连约束具体包括:将表达相同用户含义的用户评论连接起来构成必连约束,即指用户评论必属同一个聚类簇;将表达不同用户含义的用户评论连接起来构成勿连约束,即指用户评论必不属同一个聚类簇,根据用户评论的数量,抽取部分需要进行人工判定的用户评论进行构建必连约束和勿连约束。
7.根据权利要求6所述的基于半监督学习的用户评论聚类方法,其特征在于,所述步骤(4)中抽取用户评论数量的十分之一进行构建必连约束和勿连约束。
8.根据权利要求6所述的基于半监督学习的用户评论聚类方法,其特征在于,所述步骤(4)具体还包括:必连约束中存在传递闭包关系,即若用户评论1与用户评论2是必连约束,用户评论2与用户评论3是必连约束,则用户评论1与用户评论3也是必连约束。
9.根据权利要求1所述的基于半监督学习的用户评论聚类方法,其特征在于,所述步骤(5)使用COP-Kmeans聚类算法进行用户评论聚类具体还包括:将步骤(2)所得的向量空间模型、步骤(3)所得的聚类簇数目K值和步骤(4)所得的必连约束和勿连约束输入到COP-Kmeans聚类算法中进行用户评论聚类得到聚类簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811539726.7/1.html,转载请声明来源钻瓜专利网。





