[发明专利]基于协同训练的垃圾评论识别方法在审
| 申请号: | 201710078482.6 | 申请日: | 2017-02-14 |
| 公开(公告)号: | CN106844349A | 公开(公告)日: | 2017-06-13 |
| 发明(设计)人: | 李志欣;兰丹媚;张灿龙 | 申请(专利权)人: | 广西师范大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 桂林市持衡专利商标事务所有限公司45107 | 代理人: | 陈跃琳 |
| 地址: | 541004 广*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 协同 训练 垃圾 评论 识别 方法 | ||
本发明公开一种基于协同训练的垃圾评论识别方法,将垃圾评论分为显式垃圾评论和隐式垃圾评论两大类,对于显式垃圾评论采用基于规则的方法筛选出来,对于隐式垃圾评论在自动识别的方法上,采用AdaBoost和SVM两个分类器对一条评论均进行识别训练,最终通过Co‑Training协同训练进一步判断其是否是垃圾评论,这样不仅提升分类的精度,同时也保证了分类效率的垃圾评论分类方法。
技术领域
本发明涉及计算机机器学习技术领域,具体涉及一种基于协同训练的垃圾评论识别方法。
背景技术
机器学习(MachineLearning,ML)是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而数据挖掘是奠定机器学习的理论基础之一,数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程,面向评论的数据挖掘一直以来备受研究人员的关注。
社交网络是以互动为基础,通过实名或非实名的方式在网络平台上构建的一种社会关系网络服务。随着社交网络的发展,社交网络中存在着大量的垃圾评论。在社交网络中,垃圾评论一般分为显式垃圾评论和隐式垃圾评论两种:显式垃圾评论主要有超级链接、随机字符、特殊符号等;隐式垃圾评论主要是指与微博信息不相关的文本评论。垃圾评论的存在不仅浪费网络资源,而且还严重干扰到研究人员在数据挖掘面向评论的工作,对垃圾评论识别的方法研究十分的必要。
发明内容
本发明所要解决的技术问题是现有社交网络中存在大量垃圾评论的问题,提供一种基于协同训练的垃圾评论识别方法。
为解决上述问题,本发明是通过以下技术方案实现的:
基于协同训练的垃圾评论识别方法,包括如下步骤:
步骤1、获取社交网络中的原文、评论和发布者这三种数据,并将所获取的数据划分为训练集、测试集和添加集;
步骤2、对所有数据进行预处理,即首先删除数据中的噪声数据,接着对去除噪声数据后的数据进行中文分词,最后滤除分词结果中的停用词;
步骤3、对训练集中的数据的评论词组和特征词汇进行基于同义词词林计算相似度计算,并将结果送入AdaBoost分类器,去训练AdaBoost分类器;其中特征词汇由发布者信息词组和社交网站的特有词汇共同组成;
步骤4、对训练集中的数据的评论词组和原文词组转化成特征向量,且在提取到的特征中进行特征选择,并将结果送入SVM分类器,去训练SVM分类器;
步骤5、从添加集中随机取出一定条数的数据构成临时集,并将临时集分别通过训练好的AdaBoost分类器和SVM分类器,对数据进行分类预测;
步骤6、若两分类预测结果一致,则把临时集中的数据按分类预测结果添加到训练集中,并转至步骤3,直至AdaBoost分类器的F测试值收敛、或SVM分类器的F测试值收敛、或添加集中无数据为止;若两分类预测结果不一致,则舍弃临时集中的数据,并转至步骤5,直至添加集中无数据为止;
步骤7、分别使用步骤6所得到的AdaBoost分类器和SVM分类器对测试集中的数据进行分类预测;当两分类预测结果一致时,则输出该分类预测结果;当两分类预测结果不一致时,则输出置信度高的分类预测结果;由此完成垃圾评论的识别。
在步骤1与步骤2之间,还进一步包括显式垃圾评论的过滤步骤,即根据预定的显式垃圾评论的判定规则,对所获取的评论数据中的显式垃圾评论进行过滤。
步骤1中,训练集中包含的数据的条数少于测试集包含的数据的条数,测试集包含的数据的条数少于添加集中所包含的数据的条数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710078482.6/2.html,转载请声明来源钻瓜专利网。





