[发明专利]汽车论坛垃圾评论识别方法在审
| 申请号: | 202011458869.2 | 申请日: | 2020-12-11 | 
| 公开(公告)号: | CN112559685A | 公开(公告)日: | 2021-03-26 | 
| 发明(设计)人: | 王磊;赛影辉;王志超;肖飞;韦圣兵 | 申请(专利权)人: | 芜湖汽车前瞻技术研究院有限公司;奇瑞汽车股份有限公司 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/247;G06F40/258;G06K9/62 | 
| 代理公司: | 芜湖安汇知识产权代理有限公司 34107 | 代理人: | 钟雪 | 
| 地址: | 241000 安徽*** | 国省代码: | 安徽;34 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 汽车论坛 垃圾 评论 识别 方法 | ||
本发明涉及产品评论技术领域,提供了一种汽车论坛垃圾评论识别方法,所述方法具体包括如下步骤:S1、选取样本,并对样本进行标注;S2、分别生成用于识别各垃圾评论特征的各类特征强分类器;S3、基于各类特征强分类器形成评论强分类器,基于评论强分类器识别垃圾评论。本发明充分考虑主题词、广告词、情感词、违禁词、相似度、评论重复数及特殊符号等评论特征对评论结果的影响,提高了垃圾评论识别的准确度。
技术领域
本发明涉及产品评论技术领域,提供了一种汽车论坛垃圾评论识别方法。
背景技术
目前汽车主流门户网站或博客论坛允许用户发表针对产品或话题的一些评论看法,难免会存在一些虚假的、有目的性的造谣或是与产品及话题无关的广告评论信息,称为垃圾评论,垃圾评论是指刻意夸赞或贬低产品的不真实的评论,或者是评论对象仅仅是产品品牌、商家、其它产品等与该产品无关的评论;如广告、用户的提问和讨论日常问题等。这些垃圾评论的存在影响了论坛评论数据的精准度,会误导消费者及主机厂。
发明内容
本发明提供了一种汽车论坛垃圾评论识别方法,旨在自动过滤掉垃圾评论,提高论坛评论数据的准确性。
本发明是这样实现的,一种汽车论坛垃圾评论识别方法,所述方法具体包括如下步骤:
S1、选取样本,并对样本进行标注;
S2、分别生成用于识别各垃圾评论特征的各类特征强分类器;
S3、基于各类特征强分类器形成评论强分类器,基于评论强分类器识别垃圾评论。
进一步的,所述垃圾评论特征包括:
不包含主题词、包含超链接与广告词、包含违禁词、情感词词频过低、评论与产品描述的相似度过低、评论重复数过高、包含特殊符号。
进一步的,特征强分类器的形成方法具体如下:
S21、定义总迭代次数为Q,初始化的样本权重;
S22、在当前第(n+1)次迭代中,获取特征rck下的错误率最小的弱分类器
S23、更新弱分类器的权重及当前所有样本的误差权重,对误差权重进行归一化后,迭代次数加1,执行S22,直至迭代次数达到Q次,输出的弱分类器即为特征rck的强分类器。
进一步的,弱分类器的权重计算公式具体如下:
μq表示更新的弱分类器权重,表示弱分类器的错误率。
进一步的,样本的误差权重计算公式具体如下:
W(n+1)i为第n+1次迭代中样本i的误差权重,Wni为第n次迭代中样本i的误差权重,μq表示特征rck下的第q个弱分类器的权重系数,yi表示正负样本的标记值,hq(si)表示特征rck下的第q个弱分类器。
进一步的,在更新样本的误差权重后,若当前的迭代次数n+1大于设定次数值,且存在样本的误差权重wn+1,i大于设定阈值时,采用如下公式对样本的误差权重进行修正:
w*n+1,i表示修正后第n+1次迭代中样本i的误差权重,wn+1,i表示修正前第n+1次迭代中样本i的误差权重,vm表示样本i被分类错误的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芜湖汽车前瞻技术研究院有限公司;奇瑞汽车股份有限公司,未经芜湖汽车前瞻技术研究院有限公司;奇瑞汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011458869.2/2.html,转载请声明来源钻瓜专利网。





