[发明专利]计算用户分值的方法和装置有效
申请号: | 201910107542.1 | 申请日: | 2019-02-02 |
公开(公告)号: | CN109801112B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 张元杰;程建波;吕军;王美青 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;张效荣 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 用户 分值 方法 装置 | ||
本发明公开了计算用户分值的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取第一数据集和第二数据集;其中,第一数据集包括多个第一数据,每个第一数据包括第一样本用户数据和对应的第一样本用户分值,第二数据集包括多个第二数据,每个第二数据包括第二样本用户数据和对应的第二样本用户分值;采用自助法对第一数据集和第二数据集进行抽样,得到样本数据;采用分位数回归算法对样本数据进行计算,得到估计值;根据估计值和目标用户数据,计算目标用户分值。该实施方式提高了用户分值计算的准确性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种计算用户分值的方法和装置。
背景技术
目前,在针对用户行为研究过程中,常用的手段是将大量的正常用户支付金额和对应的正常用户分值,及少量的异常用户支付金额和对应的异常用户分值作为数据集,采用传统的回归方法对数据集进行计算,得到估计值,将估计值与目标用户支付金额相乘,得到目标用户分值。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
第一,由于数据集包括大量的正常用户支付金额,少量的异常用户支付金额,数据集不均衡,基于数据集进行计算,估计值将会偏向正常用户,估计值不准确,目标用户分值发生偏移,目标用户分值也不准确。
第二,传统的回归分析方法存在如下问题:首先,采用传统的回归分析方法得到的估计值会受极端值影响,估计值不准确,目标用户分值也不准确。其次,传统的回归分析方法要求残差满足正态分布,但实际基本不满足正态分布,由于分布类型改变,计算的可信性难以保证,计算的准确性不高,目标用户分值也不准确。再次,传统的回归分析方法是均值回归,只刻画了条件分布集中趋势的指标,并不能全面的描述因变量条件分布的全貌。
发明内容
有鉴于此,本发明实施例提供一种计算用户分值的方法和装置,能够提高估计值的准确性,提高目标用户分值计算的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种计算用户分值的方法。
本发明实施例的一种计算用户分值的方法,包括:
获取第一数据集和第二数据集;其中,所述第一数据集包括多个第一数据,每个第一数据包括第一样本用户数据和对应的第一样本用户分值,所述第二数据集包括多个第二数据,每个第二数据包括第二样本用户数据和对应的第二样本用户分值;
采用自助法对所述第一数据集和所述第二数据集进行抽样,得到样本数据;
采用分位数回归算法对所述样本数据进行计算,得到估计值;
根据所述估计值和目标用户数据,计算目标用户分值。
在一个实施例中,采用自助法对所述第一数据集和所述第二数据集进行抽样,得到样本数据,包括:
采用自助法从所述第一数据集中抽取出第一数量的所述第一数据,并抽取多次;
采用所述自助法从所述第二数据集中抽取出第二数量的所述第二数据,并抽取多次;
将每次抽取的所述第一数量的所述第一数据和所述第二数量的所述第二数据的集合作为每次抽取的样本数据。
在一个实施例中,所述第一数据集中第一数据数量与所述第二数据集中第二数据数量的比值大于10,所述第一数量与所述第二数量的比值范围是[0.1,10]。
在一个实施例中,采用分位数回归算法对所述样本数据进行计算,得到估计值,包括:
采用分位数回归算法对每次抽取的所述样本数据进行计算,得到每次抽取的参考值;
将每次抽取的所述参考值相加,得到总参考值;
将所述总参考值除以抽取次数,得到估计值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910107542.1/2.html,转载请声明来源钻瓜专利网。