[发明专利]一种数据处理方法、装置以及计算机存储介质在审
申请号: | 201910792092.4 | 申请日: | 2019-08-26 |
公开(公告)号: | CN112433932A | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 王勇;熊涛 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 以及 计算机 存储 介质 | ||
本申请实施例公开了一种数据处理方法、装置以及计算机存储介质,方法包括:获取第一测试显著水平值以及用户业务数据集合,其中,用户业务数据集合包括多个用户分别对应的多维业务数据;对多个多维业务数据进行划分得到数据组,将数据组组合得到数据组对,所述数据组对包括两组数据组;根据第一测试显著水平值以及数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;根据显著差异数量,确定第一测试显著水平值对应的总体显著水平值。采用本申请,可以降低总体显著水平值错误率,提高AB实验方法的准确性。
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置以及计算机存储介质。
背景技术
随着互联网应用渗透到生活的各个方面,人们愈发地重视用户的选择,无论是网页流程的制作,还是应用页面的改版一般都需要做AB测试(即AB test)来验证用户对两组(A/B)版本产品的青睐。一个大规模AB测试系统关注的实验指标有成百上千个,每一个AB实验可能也有10多个关联的指标,而传统的AB测试一次只能对一个指标做实验,远远不能满足互联网产品的需求。
在目前互联网AB测试中,往往需要实验中各指标相互独立,然而实际产品中各指标具有相关联,在这种情况下所确定出的αper可能会与预期的第一类错误不匹配,进而在使用αper进行AB测试后,可能会导致实际的第一类错误过大。
发明内容
本申请实施例提供一种数据处理方法、装置以及计算机存储介质,可以保证αper与第一类错误之间的关系的准确性,更好控制AB测试后的第一类错误。
本申请实施例一方面提供了一种数据处理方法,包括:
获取第一测试显著水平值以及用户业务数据集合,其中,所述用户业务数据集合包括多个用户分别对应的多维业务数据;
对多个所述多维业务数据进行划分得到数据组,将所述数据组组合得到数据组对,所述数据组对包括两组数据组;
根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量;
根据所述显著差异数量,确定所述第一测试显著水平值对应的总体显著水平值。
其中,还包括:
将所述第一测试显著水平值与所述总体显著水平值之间的映射关系添加至映射关系表;
所述映射关系表包括多个测试显著水平值分别对应的总体显著水平值,所述多个测试显著水平值包括所述第一测试显著水平值。
其中,所述将所述用户业务数据集合划分得到数据组,将所述数据组组合得到数据组对,每组数据组对包括两组数据组,包括:
确定所述用户业务数据集合随机排序次数N,若所述N小于次数阈值,则对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,对所述数据组进行两两组合,得到数据组对,直至所述N等于所述次数阈值,得到所有的数据组对。
其中,所述对多个所述多维业务数据进行随机排序,对排序后的多个所述多维业务数据进行划分得到数据组,包括:
对多个所述多维业务数据进行随机排序;
确定每个所述多维业务数据的哈希值;
根据所述哈希值,将排序后的多个所述多维业务数据划分为G组数据组;所述G为偶数。
其中,所述根据所述第一测试显著水平值以及所述数据组对中两组数据组的多维业务数据,确定具有显著差异状态的数据组对的数量,作为显著差异数量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910792092.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电机及风机
- 下一篇:转子、电机、压缩机和制冷设备