[发明专利]一种基于多维度用户画像的电商用户行为数据模拟的方法及系统有效
| 申请号: | 202110957980.4 | 申请日: | 2021-08-20 |
| 公开(公告)号: | CN113487117B | 公开(公告)日: | 2023-10-17 |
| 发明(设计)人: | 袁梦;杨美红;郭莹;张虎;曹文泰;孙明辉;王天伟;白杨 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q30/0601 |
| 代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多维 用户 画像 商用 行为 数据 模拟 方法 系统 | ||
本发明涉及一种基于多维度用户画像的电商用户行为数据模拟的方法及系统,包括以下步骤:步骤1:构建电商平台基础数据集;电商平台基础数据集是指包括电商平台各种商品信息的集合,步骤2:构建商品间的关联规则表;商品间的关联规则是用来描述两个或多个商品之间的关联性;步骤3:构建多维度用户画像;先设计一个多维度用户画像框架,再利用该多维度用户画像框架依据使用者的不同需求实例出具体的多维度用户画像;步骤4:模拟生成电商用户行为数据;包括用户基本信息、用户购物数据和用户浏览记录数据。本发明能够快速模拟出大量电商用户的行为数据,大大降低了大数据教学和科研人员获取实验数据的难度。
技术领域
本发明涉及计算机数据模拟技术领域,特别是涉及一种基于多维度用户画像逆向模拟生成带有预埋属性的电商用户行为数据的方法及系统。
背景技术
随着移动互联网的迅猛发展和云计算、物联网等新服务与新应用的日益丰富,网上数据流量呈现迅猛发展态势,全球数据量每两年大约增加一倍,海量数据推动着信息社会迎来了大数据时代。大数据已经对我们产生了深远的影响,其应用涉及生活的方方面面,各大网络平台每天产生的数据以PB级增长,企业对大数据人才的需求逐年攀升,国家及各大高校也越来越重视大数据人才的培养。学习大数据最基本也是最重要的就是要有优质的数据,如果说算法是系统的骨架,那么数据就是系统的血液。然而,实验数据源的获取一直困扰着大数据各方面的研究,我们虽然身处数据的时代,但是由于数据涉及各单位内部具体事务,考虑到市场竞争及保密等问题,各单位绝少会将自己的数据提供给研究人员,即便利用爬虫技术也很难获取,从而造成了明明有大量数据源存在,但研究人员却得不到数据源的不争事实,某些公司可能会提供有接口,但收费往往十分昂贵。这就为大数据科研与教学中如数据挖掘、用户画像刻画、推荐系统构建等造成了相当大的难度。业界虽然一直努力构建公开可用的数据集供大数据相关研究者使用,如MovieLens、Book-Crossing、Last.fm、Amazon Music等数据集,但是这类公开数据集往往表现出某些缺陷,包括:①隐私安全问题;②小数据集问题;③关键信息缺失问题;④数据多样性问题;⑤噪声问题;⑥伸缩性问题。
目前,为了解决实验数据获取困难,方便快捷的获取优质的数据,在数据模拟领域主要有样本数据扩充技术和信息系统模拟数据生成技术。但是,样本数据扩充是一个由少生多的过程,目标是使生成的数据既能达到数据量要求,其特点是可以将原始数据中所隐含的先验知识和规则继承到扩充数据集中,使算法不依赖领域专家制定的先验知识和规则,正因为其扩充数据特性来自于原始数据,导致使用这类算法模拟生成数据时很难根据不同需求在扩充数据中预埋特定属性,会存在数据多样性不足问题;信息系统模拟数据生成解决的是在不方便或不可能使用真实数据时,生成信息系统正常运行所需的数据,重点通过对关系型数据库中依赖关系、规则的描述,从无到有的数据生成过程,要求生成的数据要满足指定的完整性约束条件,并且要符合指定的领域业务规则,还要求满足对数据集的特殊要求,但该类技术目前尚未形成完整、成熟的理论体系且针对具体领域没有固定的解决方案。
通过以上对现有的数据生产技术的概述可以看出,目前的数据生成技术难以根据需求定制生成带有特定价值信息的海量仿真模拟数据。
发明内容
本发明为了克服上述技术缺陷,提供了一种针对电商数据领域,能根据需求定制生成海量带有特定价值信息的用户行为仿真数据的方法。
本发明还提供了一种基于多维度用户画像的电商用户行为数据模拟系统。
术语解释:
用户画像,又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。
本发明的技术方案为:
一种基于多维度用户画像的电商用户行为数据模拟的方法,包括以下步骤:
步骤1:构建电商平台基础数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110957980.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





