[发明专利]一种基于半监督的应用市场刷榜应用检测方法在审
申请号: | 201810487147.6 | 申请日: | 2018-05-21 |
公开(公告)号: | CN108710911A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 何道敬;唐宗力;洪凯 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q30/00 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用检测 应用市场 半监督学习算法 标注 混合样本 半监督 分类器 数据库 半监督学习 数据标注 训练算法 应用特征 误报率 存储 协同 检测 成熟 应用 | ||
本发明公开了一种基于半监督的应用市场刷榜应用检测方法,将半监督学习算法使用于应用市场的刷榜应用检测。实施步骤包括:获取应用特征存储到数据库,将数据库中特征进行少量标注得到带标注和无标注的混合样本集,使用半监督学习算法在混合样本集上训练得到分类器,最后将分类器用于应用检测。本发明将半监督学习应用到大量无标注的应用市场数据中,采用半监督学习算法中成熟的协同训练算法,降低误报率的同时,提高了检测的效率,实现了少量数据标注下应用市场中的刷榜应用检测。
技术领域
本发明涉及一种应用市场刷榜检测方法,具体的来说,涉及的是一种基于半监督的应用市场刷榜应用的检测方法。
背景技术
随着智能手机和平板电脑的快速发展,应用市场(例如AppleAppStore和GooglePlay)已经发展为一个巨大的市场。应用市场承担着向用户分发应用的关键作用,为了帮助用户查找应用和开发商推广应用,应用市场提供了有关应用程序的各种信息,例如应用简介、屏幕截图以及用户评论评分等。而且,应用市场会在首页上显示各种排行榜,排名较高的应用会吸引更多的关注和下载。开发商为了可以让自己的应用在排行榜上吸引用户下载,很多开发商会选择非法推广他们的应用。根据新闻报道,更有一部分的恶意开发者在应用市场中通过推广恶意应用导致大量下载用户隐私泄露以及金钱损失。因此,为了应用市场生态系统的健康以及避免对用户造成经济损失、甚至人身伤害,可以准确并且快速检测出刷榜应用是一项重要的任务。
当前,应用市场刷榜检测大致分为两类:基于规则和模式匹配和基于全监督机器学习的检测方法。基于规则和模式匹配的检测方法,规则集无法检测新出现的规则,每次更新规则需要人工参与,并且规则集过多后会导致系统冗余,很难提升精确度。基于全监督机器学习的检测方法,利用应用的特征作为输入,训练模型后利用训练好的模型对新的数据进行预测,精确率高,是当前主流的方法。但是模型训练需要大量带有标注的样本,然而这类样本是需要人工进行标注的,人工成本太高。现有对应用市场中的大量数据信息进行分类大多利用监督学习算法,该算法都是基于人工标注的数据建立分类模型,但是由于应用市场中的应用信息过于庞大,人工标注数据所需成本巨大,并且没有特别好的方法解决数据标注问题。
发明内容
本发明的目的是:针对现有应用市场刷榜应用检测在全监督机器学习技术的不足之处,提出一种基于半监督的应用市场刷榜应用检测方法,该方法利用协同训练,将多分类器运用到大量无标注数据的应用市场中,降低人工成本的同时,提高检测效率。
本发明的目的是这样实现的:
一种基于半监督的应用市场刷榜应用检测方法,该方法包括以下步骤:
步骤1:从应用市场中获取多个应用的特征F,包括每个应用的应用特征和评论特征,并将这些特征存储到数据库;
步骤2:从步骤1所述数据库中取应用的特征,并对其进行少量标注,得到有标注样本和无标注样本共同组成的混合样本集;
步骤3:使用半监督学习算法在步骤2中的混合样本集上进行训练,得到分类器C;
步骤4:使用步骤3中得到的分类器C对应用进行检测,输出检测结果。
所述应用特征和评论特征具体包括但不仅限:应用名称、应用版本号、应用类别、应用价格、开发者名称、应用的排名、下载量、评论数量、平均评分、每一条评论的评论者名称、评分、评论字数个数、评论平均字数个数。
所述步骤3中半监督学习算法具体步骤为:
步骤A1:建立样本集,L代表少量已标注样本集,U代表未标注样本集;通过有放回抽样的方法在已标注的样本集L上随机选取n组不同的训练样本集Dn;
步骤A2:初始化n个分类器,将应用的特征F作为n个分类器的特征输入,用n组不同的训练样本集Dn分别训练,得到n个分类器Cn;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810487147.6/2.html,转载请声明来源钻瓜专利网。