[发明专利]一种基于购物行为序列数据的虚假评论检测系统和方法有效
| 申请号: | 201910097065.5 | 申请日: | 2019-01-31 |
| 公开(公告)号: | CN109829733B | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 古平;邵思宇;周蒙;张程;李佳;刘希萌;杨瑞龙 | 申请(专利权)人: | 重庆大学 |
| 主分类号: | G06Q30/018 | 分类号: | G06Q30/018;G06Q30/0217 |
| 代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 郭云 |
| 地址: | 400044 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 购物 行为 序列 数据 虚假 评论 检测 系统 方法 | ||
1.一种基于购物行为序列数据的虚假评论检测方法,其特征在于,包括以下步骤:
S1:获取用户购物行为序列数据,标记为序列Z;
S2:从序列Z中获取训练或待检商品的购物行为序列数据,并进行预处理得到序列H;
S3:利用序列H中的数据进行概率后缀树模型的建模,以便于分析;
S4:对商品进行筛选得到可疑商品集合U:定义每件商品的成交率T=成交数/点击数,若Tλ,λ为预设阈值,则将商品加入可疑商品集合U;
S5:对可疑商品集合U中每件商品的评论进行分析,获得商品的可疑评论集合W;
S5-1:获取商品的评论时间跨度集合,并平均分成n个子时间跨度;
获取第一条评论和最后一条评论之间的时间跨度集合t,将时间跨度t平均分成n个子时间跨度,即t={t1,t2,…,tn},tn表示第n个子时间跨度;
S5-2:计算时间跨度集合中商品的平均评论数:
avg=N/n (2)
公式(2)中,N表示商品在时间跨度集合t中的所有评论数,avg表示商品的平均评论数;
S5-3:获取每个子时间跨度中商品的评论数count(tn),若count(tn)avg且count(tn)count(tn-1)and count(tn)count(tn+1),则将第n个子时间跨度标记为可疑区域,从而将该区域内的所有评论标记为可疑评论,最终得到可疑评论集合W;
S6:利用概率后缀树模型分析检测虚假评论者,得到虚假评论者集合V;
分析检测虚假评论者的方式如下:
公式(3)中,β为异常度,表示异常的购物行为子序列个数与总的购物行为序列个数的比值;当ββmin,βmin为预设的阈值,则判定购物行为异常,即评论为虚假,将对应的评论者加入虚假评论者集合V;X表示子序列的个数;MM(sj)表示行为sj及其前k个行为组成的行为序列是否被判定为异常行为,如该值为1则为异常,为0则为正常,μmin为阈值,k<D,D为概率后缀树模型的最大深度,sj表示子序列中的任一行为,sj-k…sj-1表示sj前面的行为序列;P(sj|sj-k…sj-1)表示行为sj的发生概率;
S7:搜索虚假评论者评价的商品,并对可疑商品集合U进行更新;
所述虚假评论者对商品B且进行评论,则商品B的可疑度dB自增1;当dB>d时,d为预设阈值,判定商品B为可疑评论商品,将商品B加入可疑商品集合U。
2.如权利要求1所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S1中,所述用户购物行为序列包括点击查看目标商品行为、点击查看相似商品行为、商品评论查看行为、商品详情查看行为、点击收藏商品行为、添加购物车行为、点击进入店铺行为、领取优惠券行为以及购买商品行为。
3.如权利要求1所述的一种基于购物行为序列数据的虚假评论检测方法,其特征在于,所述S2包括以下步骤:
S2-1:提取用户在训练或待分析商品的购物行为序列数据,形成序列S;
以本次待分析商品支付时间为基准,从序列Z中抽取自上次支付时间到本次支付时间内的所有用户购物行为序列数据,得到用户对待分析商品的购物行为序列S;
S2-2:将序列S中的无关行为数据进行过滤得到序列H;
所述无关行为数据是指用户行为与当前分析商品所属类别不一致的数据;
S2-3:将序列H中的两种行为特征进行细化;
商品的详情查看时长为T1,商品的评论查看时长为T2,并采用时间间隔Δt将T1和T2进行分段,分别得到T1/Δt和T2/Δt个子事件,以提高模型构建的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910097065.5/1.html,转载请声明来源钻瓜专利网。





