[发明专利]基于协同训练的垃圾评论识别方法在审
| 申请号: | 201710078482.6 | 申请日: | 2017-02-14 |
| 公开(公告)号: | CN106844349A | 公开(公告)日: | 2017-06-13 |
| 发明(设计)人: | 李志欣;兰丹媚;张灿龙 | 申请(专利权)人: | 广西师范大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 桂林市持衡专利商标事务所有限公司45107 | 代理人: | 陈跃琳 |
| 地址: | 541004 广*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开一种基于协同训练的垃圾评论识别方法,将垃圾评论分为显式垃圾评论和隐式垃圾评论两大类,对于显式垃圾评论采用基于规则的方法筛选出来,对于隐式垃圾评论在自动识别的方法上,采用AdaBoost和SVM两个分类器对一条评论均进行识别训练,最终通过Co‑Training协同训练进一步判断其是否是垃圾评论,这样不仅提升分类的精度,同时也保证了分类效率的垃圾评论分类方法。 | ||
| 搜索关键词: | 基于 协同 训练 垃圾 评论 识别 方法 | ||
【主权项】:
基于协同训练的垃圾评论识别方法,其特征是,包括如下步骤:步骤1、获取社交网络中的原文、评论和发布者这三种数据,并将所获取的数据划分为训练集、测试集和添加集;步骤2、对所有数据进行预处理,即首先删除数据中的噪声数据,接着对去除噪声数据后的数据进行中文分词,最后滤除分词结果中的停用词;步骤3、对训练集中的数据的评论词组和特征词汇进行基于同义词词林计算相似度计算,并将结果送入AdaBoost分类器,去训练AdaBoost分类器;其中特征词汇由发布者信息词组和社交网站的特有词汇共同组成;步骤4、对训练集中的数据的评论词组和原文词组转化成特征向量,且在提取到的特征中进行特征选择,并将结果送入SVM分类器,去训练SVM分类器;步骤5、从添加集中随机取出一定条数的数据构成临时集,并将临时集分别通过训练好的AdaBoost分类器和SVM分类器,对数据进行分类预测;步骤6、若两分类预测结果一致,则把临时集中的数据按分类预测结果添加到训练集中,并转至步骤3,直至AdaBoost分类器的F测试值收敛、或SVM分类器的F测试值收敛、或添加集中无数据为止;若两分类预测结果不一致,则舍弃临时集中的数据,并转至步骤5,直至添加集中无数据为止;步骤7、分别使用步骤6所得到的AdaBoost分类器和SVM分类器对测试集中的数据进行分类预测;当两分类预测结果一致时,则输出该分类预测结果;当两分类预测结果不一致时,则输出置信度高的分类预测结果;由此完成垃圾评论的识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710078482.6/,转载请声明来源钻瓜专利网。





