[发明专利]一种基于分位数逻辑回归的数据分析方法在审
申请号: | 201910502413.2 | 申请日: | 2019-06-11 |
公开(公告)号: | CN110580494A | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 张舵 | 申请(专利权)人: | 深圳索信达数据技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02 |
代理公司: | 44218 深圳市千纳专利代理有限公司 | 代理人: | 黄良宝 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 逻辑回归 逻辑回归模型 目标函数 数据分析 预处理 准确度 回归模型 加权误差 数据清洗 影响模型 不敏感 传统的 分类器 鲁棒性 无约束 回归 预测 建模 研究 群体 | ||
一种基于分位数逻辑回归的数据分析方法,涉及一种基于分位数逻辑回归的数据分析方法。传统的逻辑回归模型在做分类器时,所能给出的信息十分有限,模型的预测准确度很差。步骤:第一步,数据清洗与预处理;第二步,进行分位数逻辑回归建模;第三步,对分位数逻辑回归模型进行求参数,求得参数使加权误差绝对值之和最小;第四步,计算无约束分位数回归目标函数和约束分位数回归目标函数。方便研究人员更细致的研究不同群体,通过数据得到更多的信息。同时,分位数回归模型对异常值不敏感,少量异常值并不影响模型预测效果,大大提高了模型的鲁棒性。
技术领域
本发明涉及数据分析领域,具体涉及一种基于分位数逻辑回归的数据分析方 法。
背景技术
逻辑回归常用于数据分析中的二分类问题。对于响应变量y=1或0(对应YES orNO)和k个解释变量x之间的关系,采用如下模型: 或logit(π)=β0+β1x1+L+βkxk,
其中π(x)=P(y=1|X=x)是y=1(YES)的概率。例如在信用卡欺诈案例中,对 于判断客户欺诈行为(y=1为是,y=0为否)与其特征变量X(收入、职业、申 请地址等等)的关系进行逻辑回归建模,则在进行预测时,模型输出 π(x)=P(y=1|X=x)为某客户存在欺诈的概率,若我们设定0.5为界限,则 P>0.5为存在欺诈行为,P<0.5为不存在欺诈行为。逻辑回归模型在数据分析领域 被广泛的作为分类器使用。
传统的逻辑回归模型在做分类器时,描述的是解释变量随因变量平均值的变 化。在进行预测时也是对“平均状态”进行预测,所能给出的信息十分有限。当关 注点为数据高位数或低位数的表现时往往不能给出精准预测,例如当解释变量x 为家庭年收入时,25%分位数则表示低收入群体,95%分位数则表示收入高于95% 其他人的高收入群体。而逻辑回归模型作为一种均值模型,不能提供不同分位数d准确预测。同时,均值模型对于数据要求较高,需要进行异常值的检测与处理, 否则模型的预测准确度很差。
发明内容
为了解决上述问题,本发明针对有技术中存在的不足,提供一种基于分位数 逻辑回归的数据分析方法。
为解决本发明所提出技术问题采用的技术方案如下:
一种基于分位数逻辑回归的数据分析方法,其特征在于:具体包括以下步骤: 第一步,数据清洗与预处理;对原始数据进行一致性检查,标准化数据格式,清 除重复数据、异常数据和无效数据,纠正错误数据,填补缺失值,并将类别变量 转化为数值型变量;
第二步,根据输入、输出关系对响应变量和解释变量进行分位数逻辑回归建模;
第三步,对分位数逻辑回归模型进行求参数,求得参数使加权误差绝对值之和最小,其中正项误差项的权重即为分位数,负项误差项的权重为1减去分位数;所 求得的参数为在此分位数的回归模型参数;
第四步,计算无约束分位数回归目标函数和约束分位数回归目标函数,1减去其比值即为模型拟合优度;拟合优度越接近1说明模型拟合度越好;若模型拟合度 不好,可以考虑更换除逻辑回归以外的其他线性/非线性模型。
作为对本发明作进一步限定的技术方案包括有:
所述逻辑回归模型的参数估计方法为使加权误差绝对值之和最小。
具体方法为:
(1)数据清洗与预处理后的数据结构为:响应变量y为二分类变量,取值 1或0,表示两个不同的种类;解释变量有k个,为x1,…,xk,均为数值型变量;
(2)对响应变量和解释变量进行分位数逻辑回归建模的方法为:首先根据 输入、输出关系建立如下逻辑回归模型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳索信达数据技术有限公司,未经深圳索信达数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910502413.2/2.html,转载请声明来源钻瓜专利网。