[发明专利]一种基于统计推算的网络零售平台店铺抽样方法有效
| 申请号: | 202011071055.3 | 申请日: | 2020-10-09 |
| 公开(公告)号: | CN112215640B | 公开(公告)日: | 2022-07-26 |
| 发明(设计)人: | 李起昊;张强 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/955;G06K9/62;G06N20/00 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
| 地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 统计 推算 网络 零售 平台 店铺 抽样 方法 | ||
1.一种基于统计推算的网络零售平台店铺抽样方法,其特征在于,该方法具体如下:
数据采集阶段:在各个电商平台采集店铺信息,根据预设的置信度阈值,选取抽样目标;
数据处理阶段:使用抽样各层名录和抽样单元基本信息作为统一的抽样框,根据抽样框信息对异常数据按照机器学习或者线性插补方式补全、去除或修正;
样本抽取阶段:采用重点平台全面调查与两步多层次抽样相结合的抽样方法抽取店铺样本;
其中,重点平台全面调查为获取下一年抽样框打下基础,具体步骤如下:
对电商平台进行全面调查,采集近期各个电商平台所有店铺的地域信息、主营类型信息及年销售额信息;
添加店铺最新地域标签、最新主营类型标签、近期销售额区间标签;
两步多层次抽样是根据“二八原则”与“代表性原则”的综合抽样方法,具体步骤如下:
将抽样框分两部分,按近一年销售额高低排序,取前10%的店铺全部采集,店铺销售额分布是左倾厚尾;
将剩余部分店铺进行分层抽样,在电商平台,按预设误差及置信度确定样本总量;
按全面调查的地域、类别比例确定地域及类别的样本店铺数,再在每个最细分的层中按销售额排序根据等距抽样方法抽样得到样本;
确定样本阶段:在样本抽取阶段抽取的样本中再抽取预设比例的样本,对店铺所在地及所属行业信息进行甄别筛查,确定店铺信息的可靠性;
数据推算阶段:根据样本数据推算出全量宏观数据;具体如下:
确定推算依据:根据大数定理,在样本足够大的条件下,按样本得到的统计量分布渐近于总体分布;再利用大样本数据计算的各商品大类、各地区及省份的同比、占比近似于网络零售总体的各商品大类、各地区及省份的同比、占比;具体如下:
获取反映网络零售行业总体趋势和结构的大样本数据;
以统计局公布的网上零售额为基准,推算当期的全国网上零售额;
推算当期的各商品大类、各交易类型、各地区及各省份的网上零售额;
准备推算样本数据具体如下:
筛选出各平台同期可比店铺,使数据具有可比性;
剔除各商品大类中拉动率异常的店铺,得到可比、可汇总分析的大样本数据,为避免异常值干扰;
准备推算样本数据:明细数据是推算的基础;
推算全国网络零售额;具体如下:
实物商品网上零售额推算:利用网络购物平台剔除虚拟商品的大样本数据,计算实物商品网上零售额的当期同比增速,并以统计局公布的历史实物商品网上零售额为基准,推算出当期实物商品网上零售额;
非实物商品网上零售额推算:利用生活服务类平台的大样本数据,计算非实物商品网上零售额的当期同比增速,并以统计局公布的历史非实物商品网上零售额为基准,推算出当期非实物商品网上零售额;
全国网上零售额推算:实物商品网上零售额与非实物商品网上零售额加总即为全国网上零售额;
推算细分维度网络零售额:具体如下:
利用大样本数据,计算各商品大类在实物商品网上零售额的各时期占比;
结合当期推算的实物商品网上零售额和统计局公布的历史同期实物商品网上零售额,推算出当期和历史同期的各商品大类的网上零售额;
计算各商品大类的同比增速;
其中,控制数据质量具体如下:
在数据采集阶段,采集店铺信息,并与全面调查时的店铺分类及地域信息对比,检查是否满足抽样条件,将不再满足条件的店铺用备用样本替换;或是采集过程漏采商品表现出商品数波动过大,及时补采该店铺商品;
在数据处理阶段,发现存在数据异常情况或是商品缺失具有系统性,按照机器学习或者线性插补方式补全;
在样本抽取阶段中的重点平台全面调查过程中,考证采集店铺数是否为全量,利用第三方数据核实店铺数是否遗缺,核查公布总销售额和自有采集数据是否一致,漏采店铺造成销售额偏小填补店铺;
在确定样本阶段,在样本中再抽取预设比例的样本,对店铺所在地及所属行业信息进行甄别考察,进行统计调查或者电话回访,以确定其网页公布信息与实际信息是否一致网上最近的地域信息是否是真实的,近一个月销量是否是准确;
在数据推算阶段,跨平台的店铺类别或地域名称需要做好标准化工作,不同平台的店铺类型需要拆分大类别,从小到大逐渐统一类别;同时做推算工作,每一步推算需要有科学依据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011071055.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种肿瘤细胞提取方法及提取系统
- 下一篇:动力髋联合加压固定系统





