[发明专利]一种联合不同来源数据的变量选择方法在审
| 申请号: | 202010867343.3 | 申请日: | 2020-08-25 |
| 公开(公告)号: | CN112182076A | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 王晓霖;郑乐 | 申请(专利权)人: | 四川新网银行股份有限公司 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/215;G06F16/28;G06K9/62;G06F17/18 |
| 代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
| 地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 联合 不同 来源 数据 变量 选择 方法 | ||
本发明一种联合不同来源数据的变量选择方法,包括:A.数据获取;B.数据清洗;C.建立模型,得到需要优化的损失函数;D.根据惩罚函数和损失函数得到目标函数;E.对目标函数求解最优系数。本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
技术领域
本发明涉及数据建模技术领域,尤其涉及一种联合不同来源数据的变量选择方法。
背景技术
大数据通常是由来源、主体或格式不同的数据合并而成,例如来自不同地区的调查数据,来自不同市场的金融数据,来自不同实验室的基因数据等。这种基于多个数据集的建模十分常见,但它的建模比较特殊。
一方面,由于不同来源的数据存在差异,各不同数据源的同一变量的系数显著性和估计值可能存在差异,目前传统的处理方法是简单合并所有样本,建立统一模型,但是这种方法过于笼统,忽略了数据间的异质性;另一方面,如果针对各数据集分别建立模型,会忽略各个数据集间的关联性。同时数据的维度越来越高,结构越来越复杂,样本量远小于维度的情况是很常见的,整合分析也是解决“大p小n”问题的有效方法。它综合多个数据集而增加了样本量,是解决小样本高维问题的有效途径。
目前现有技术主要是将含组结构的双层变量选择思想应用到整合分析中,若解释变量呈现出组结构,双层变量选择方法可以使惩罚函数能同时进行组间变量与组内变量的筛选,将双层变量的思想应用到整合分析中,不仅可以筛选出显著的变量还可以识别出它在哪些数据集上显著。但是基于惩罚函数方法的整合分析主要是借鉴了双层变量选择的思想,若此时多源数据集中的解释变量呈现出组结构,那么现有的双层变量选择则不能解决这种考虑组结构的多源数据集的整合分析了。
发明内容
基于上述问题本发明提供一种联合不同来源数据的变量选择方法,提出三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。
本发明一种联合不同来源数据的变量选择方法,包括:
A.建立存放数据信息的数据库,获取各种不同来源的数据集并保存在数据库中;
B.在代码模块中对获取的不同来源的数据集进行数据清洗得到干净数据,并将数据集分为训练集和测试集;
C.根据需求方的预测目标在训练集上建立模型,根据模型表达式和损失函数形式,得到需要优化的损失函数;
D.根据适用于变量含组结构的多源异构数据整合分析的三层变量选择方法,采用MCP惩罚函数,并且根据步骤C所述损失函数和惩罚函数建立最优化问题的目标函数;
E.对最优化问题的目标函数中的损失函数进行二次近似得到近似后的目标函数,对近似后的目标函数求解最优系数从而得到最优模型。
本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
进一步的,步骤A包括:
建立一个存放各种数据信息的数据库平台,将各种来源不同的数据存储在数据库中,可以通过SQL连接数据库平台查询数据;
建立一个平台,该平台包含数据集模块、SQL模块代码模块和模型模块等;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010867343.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于光电子封装的环氧树脂复合材料
- 下一篇:新型铝粒切断机构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





