[发明专利]一种基于演化聚类的评论文本分类提取方法在审

申请号：	201611254491.8	申请日：	2016-12-30
公开（公告）号：	CN108268470A	公开（公告）日：	2018-07-10
发明（设计）人：	侯大勇;李青海;简宋全;邹立斌	申请（专利权）人：	广东精点数据科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京隆源天恒知识产权代理事务所(普通合伙) 11473	代理人：	闫冬
地址：	510630 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	聚类评论文本文本特征分类向量空间模型文本特征项聚类结果聚类算法评论内容文本情感稳定性强异常数据复杂度关联性敏感度时间段特征项停用词稀疏性分词去除权重样本采集赋予评论统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于演化聚类的评论文本分类提取方法，其特征在于，该方法包括以下步骤：

步骤S1：采集评论样本，对评论内容进行分词，并去除停用词，即数据的预处理；

步骤S2：对文本特征进行处理，除去关联性低或不相关的特征项，采用χ²统计法对评论文本进行处理，χ²统计法的公式为：

其中，A表示包含特征α并且属于类别β的文档数量，B表示包含特征α但是不属于文档类别β的文档数量，C表示不包含特征α但是属于文档类别β的文档数量，D表示既不属于α也不包含特征β的文档数量，N表示语料中文档的总数目；

步骤S3：将步骤S2得出的文本特征项根据文本情感向量空间模型，赋予不同权重，以解决数据的稀疏性问题；

步骤S4：利用k-medoids演化聚类算法，对步骤S3中已经赋予情感倾向权重的文本特征进行聚类，获取各个时间段的聚类中心；

步骤S5：对各个时间段的聚类结果进行统计，得出评论文本的情感倾向与趋势。

2.根据权利要求1所述的一种基于演化聚类的评论文本分类提取方法，其特征在于，所述步骤S3具体包括：

步骤S31：选出特征词之后，根据权重计算公式赋予不同的特征词以不同的权重；

步骤S32：利用PMI-IR情感计算方法计算评论文本的情感倾向，结合计算出来的特征词及其权重，构建向量空间，并对统计出的情感倾向对评论文本进行正向、中性和负向的类别分类。

3.根据权利要求1所述的一种基于演化聚类的评论文本分类提取方法，其特征在于，所述步骤S4具体包括：

步骤S41：输入样本集由人工输入K值，每个固定t的时间段都具有相同的簇数目K，X_t-1中的簇中心为

步骤S42：从X_t个评论文本数据中，随机抽取K个样本作为初始簇中心；

步骤S43：根据选取公式，重新选取t的簇中心，选取公式为：

其中，表示t时段的样本数据集，n表示样本数量，同样的，X_t-1表示t-1时段的样本数据集，如果用K_t表示t时段的簇数目，则为t时段的簇质心，C_t,k为t时段第k个簇的样本数据集；同样的，表示t-1时段的簇质心，C_t-1,k表示t-1时段第k'个簇的样本数据集，K_t-1表示t-1时段簇的个数；

步骤S44：循环迭代，直至收敛，最终得出各个时间段的簇中心关键语段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司，未经广东精点数据科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611254491.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于混合多项分布的文本分类算法
下一篇：日志文件的读取方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于演化聚类的评论文本分类提取方法在审

专利文献下载