[发明专利]一种大数据场景下推荐系统虚假信息注入方法及系统在审
申请号: | 202111447123.6 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114168846A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 金增旺;徐晨浩;张盛兵;张艳宁;周世钢 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538;G06Q30/00;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710072 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 场景 推荐 系统 虚假 信息 注入 方法 | ||
本发明公开了一种大数据场景下推荐系统虚假信息注入方法及系统,构建Movielens数据集作为推荐系统的真实数据集;使用余弦相似度构建相似度矩阵表示目标用户a与其他用户之间的相似度;通过排序获得相似度最高的K位用户,列举K位用户偏爱的所有项目,剔除目标用户a已经评分过的项目,计算出前N个项目,将形成的推荐结果页面推荐给目标用户a;构建注入模型,确定注入强度,填充率和选择率参数形成虚假用户数量,确定虚假用户的评分数据;将得到的虚假数据集注入推荐系统的真实数据集中,推荐系统被虚假信息所干扰形成新的推荐页面结果。本发明有效实现了推荐功能,可以展示在未受到注入时,正常的推荐结果页面。
技术领域
本发明属于网络技术领域,具体涉及一种大数据场景下推荐系统虚假信息注入方法及系统。
背景技术
随着移动网络发展,信息数据规模呈爆炸式增长,大数据概念受到普遍关注。大数据在丰富人类生活的同时,带来了大量的问题。信息过载是当前大数据环境下最严重的问题之一,这问题会导致信息的利用率大大降低,用户不得不花费大量精力在冗余信息中进行筛选。大数据有5个特点:数据量巨大,速度快,模态多,难辨别和价值低、密度低,由于这些特点使得传统推荐系统无法满足对数据处理能力的要求,同时大数据的存在使得用户对推荐系统有更高的实时性和准确性的要求。
基于协同过滤算法的推荐系统帮助用户快速地找到那些他们未曾发现,但未来可能感兴趣的信息,并积极地推送给用户。推荐系统的本质是有效地过滤与推送匹配信息。与搜索引擎相比,并不要求用户提出明确的搜索目的,而是需要剖析用户行为数据,发现用户的偏好,从而实现快速地提供用户推荐信息,帮助不同用户发现那些他们感兴趣的个性化新事物,提供更好的使用体验。协同过滤推荐算法的核心思想是根据历史行为数据预测用户对项目潜在的兴趣。协同过滤算法是依据用户之间的相似度来推送自己感兴趣的物品,皮尔逊相关系数,余弦相似公式都是用于计算用户相似度的方法。
基于协同过滤的推荐系统对用户的搜索效率提升很大,但与此同时也面临了一些挑战和问题。大量用户信息是推荐系统的重要部分。由于开放性的原因,一些恶意用户在协同过滤的系统中有目的地注入虚假用户信息,操纵这些虚假用户,从而使操纵系统的排名发生变化,有利于其特定信息展示在更多用户页面中。推荐系统是面向用户开放的,协同过滤算法需要海量的用户历史评分作为推荐依据。因此无论用户身份好坏都可参与,敌手可根据该漏洞,对系统添加大量虚假用户评分。虚假信息注入严重干扰推荐系统的推荐结果,严重影响了真实用户体验,导致用户逐渐对推荐系统失去信任,损害用户以及平台的正当利益,阻碍了协同过滤推荐技术在各种领域的普及和提升。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种大数据场景下推荐系统虚假信息注入方法及系统,模拟虚假用户对推荐系统干扰的流程以及对推荐结果造成的影响。
本发明采用以下技术方案:
大数据场景下推荐系统虚假信息注入方法,包括以下步骤:
S1、构建Movielens数据集作为推荐系统的真实数据集;
S2、基于步骤S1构建的数据集,使用余弦相似度构建相似度矩阵表示目标用户a与其他用户之间的相似度;
S3、基于步骤S2构建的目标用户a的相似度矩阵,通过排序获得相似度最高的K位用户,列举K位用户偏爱的所有项目,剔除目标用户a已经评分过的项目,根据兴趣度高低排序,计算出前N个项目,将形成的推荐结果页面推荐给目标用户a;
S4、根据步骤S3形成的目标用户a的推荐结果构建具有注入类型、注入强度、填充率和选择率参数值的虚假信息注入模型;
S5、根据步骤S4搭建的虚假信息注入模型形成虚假用户和虚假信息;
S6、将步骤S5得到的虚假用户和虚假信息注入步骤S1的真实数据集后,通过步骤S2和步骤S3得到最终被虚假信息所干扰形成新的推荐页面结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111447123.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置