[发明专利]一种评论的真实性检测方法与系统有效
| 申请号: | 201810153301.6 | 申请日: | 2018-02-14 |
| 公开(公告)号: | CN108345587B | 公开(公告)日: | 2020-04-24 |
| 发明(设计)人: | 李树栋;方滨兴;田志宏;吴晓波;殷丽华;李爱平;顾钊铨;韩伟红;仇晶;崔翔;王乐 | 申请(专利权)人: | 广州大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
| 地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 评论 真实性 检测 方法 系统 | ||
1.一种评论的真实性检测方法,其特征在于,包括:
对待检测评论进行分词预处理,以得到所述待检测评论的若干分词结果;
将所述待检测评论的若干分词结果中的词语转化为词向量;
将所述待检测评论的所有词向量输入卷积神经网络模型,以得到所述待检测评论的情感标签,根据所述情感标签将所述待检测评论分为正向评论、中性评论和负向评论;其中,所述卷积神经网络模型为通过训练集的每一标准句子的词向量和预先标记的每一标准句子的情感标签训练卷积神经网络所生成;
采用逻辑回归模型从所有变量中选取目标特征向量,所述变量包括去除情感极性外的文本长度、复杂度、关联度、一致性、是否包含转折词、复制文本、用户信誉、初评和追评一致性、及是否附有广告图片;
计算所述待检测评论的目标特征向量到预先获得的真实评论的聚类中心的距离,作为第一距离,及计算所述待检测评论的目标特征向量到预先获得的虚假评论的聚类中心的距离,作为第二距离;
根据所述第一距离、所述第二距离和所述待检测评论的情感标签,确定所述待检测评论的真实性;
其中,所述卷积神经网络模型的构建过程包括:
对训练集的每一标准句子进行分词预处理,以得到所述标准句子的若干标准分词结果;
将所述若干标准分词结果中的词语转化为词向量;
构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距;
所述构建卷积神经网络模型,并通过每一所述标准句子的所有词向量和预先标记的每一所述标准句子的情感标签训练卷积神经网络,以得到所述卷积神经网络模型的权值和截距,包括:
对每一所述标准句子,使用卷积神经网络中的卷积层对所述标准句子的所有词向量进行卷积,以抽取不同大小卷积核的句子级别特征;
对每个卷积层进行最大池化操作,生成一个固定长度的句子特征向量;
将所有卷积层生成的句子特征向量进行全连接,得到全局特征向量;
将所述全局特征向量传递至包含两个全连接层的神经网络,计算所述标准句子属于每个情感标签e∈E的得分;
给定句子x,参数集合为θ的模型对每个情感标签e计算一个得分scoreθ(x)e,通过最小负似然函数将得分转换为给定句子的情感标签和模型参数集θ的条件概率分布,以通过训练卷积神经网络得到所述卷积神经网络模型的权值和截距。
2.如权利要求1所述的评论的真实性检测方法,其特征在于,所述采用逻辑回归模型从所有待选变量中选取目标特征向量,包括:
对评论语料库的每一参考评论,提取所述参考评论的变量;
将所述参考评论的所有变量作为自变量,将所述参考评论的真实性作为因变量,通过逻辑回归模型从所有自变量中选取对所述因变量的影响最显著的自变量,作为所述参考评论的目标特征向量;其中,所述因变量为二值变量;若所述参考评论为真实评论,则所述因变量等于0;若所述参考评论为虚假评论,则所述因变量等于1;
所述真实评论和虚假评论的聚类中心的获取过程,包括:
对所有参考评论的目标特征向量进行聚类运算,以得到真实评论和虚假评论的聚类中心。
3.如权利要求2所述的评论的真实性检测方法,其特征在于,所述方法还包括:在卷积层卷积后,加入激活函数Relu。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810153301.6/1.html,转载请声明来源钻瓜专利网。





