[发明专利]汽车论坛垃圾评论识别方法在审

申请号：	202011458869.2	申请日：	2020-12-11
公开（公告）号：	CN112559685A	公开（公告）日：	2021-03-26
发明（设计）人：	王磊;赛影辉;王志超;肖飞;韦圣兵	申请（专利权）人：	芜湖汽车前瞻技术研究院有限公司;奇瑞汽车股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/247;G06F40/258;G06K9/62
代理公司：	芜湖安汇知识产权代理有限公司 34107	代理人：	钟雪
地址：	241000 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	汽车论坛垃圾评论识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及产品评论技术领域，提供了一种汽车论坛垃圾评论识别方法，所述方法具体包括如下步骤：S1、选取样本，并对样本进行标注；S2、分别生成用于识别各垃圾评论特征的各类特征强分类器；S3、基于各类特征强分类器形成评论强分类器，基于评论强分类器识别垃圾评论。本发明充分考虑主题词、广告词、情感词、违禁词、相似度、评论重复数及特殊符号等评论特征对评论结果的影响，提高了垃圾评论识别的准确度。

技术领域

本发明涉及产品评论技术领域，提供了一种汽车论坛垃圾评论识别方法。

背景技术

目前汽车主流门户网站或博客论坛允许用户发表针对产品或话题的一些评论看法，难免会存在一些虚假的、有目的性的造谣或是与产品及话题无关的广告评论信息，称为垃圾评论，垃圾评论是指刻意夸赞或贬低产品的不真实的评论，或者是评论对象仅仅是产品品牌、商家、其它产品等与该产品无关的评论；如广告、用户的提问和讨论日常问题等。这些垃圾评论的存在影响了论坛评论数据的精准度，会误导消费者及主机厂。

发明内容

本发明提供了一种汽车论坛垃圾评论识别方法，旨在自动过滤掉垃圾评论，提高论坛评论数据的准确性。

本发明是这样实现的，一种汽车论坛垃圾评论识别方法，所述方法具体包括如下步骤：

S1、选取样本，并对样本进行标注；

S2、分别生成用于识别各垃圾评论特征的各类特征强分类器；

S3、基于各类特征强分类器形成评论强分类器，基于评论强分类器识别垃圾评论。

进一步的，所述垃圾评论特征包括：

不包含主题词、包含超链接与广告词、包含违禁词、情感词词频过低、评论与产品描述的相似度过低、评论重复数过高、包含特殊符号。

进一步的，特征强分类器的形成方法具体如下：

S21、定义总迭代次数为Q，初始化的样本权重；

S22、在当前第(n+1)次迭代中，获取特征r_ck下的错误率最小的弱分类器

S23、更新弱分类器的权重及当前所有样本的误差权重，对误差权重进行归一化后，迭代次数加1，执行S22，直至迭代次数达到Q次，输出的弱分类器即为特征r_ck的强分类器。