[发明专利]一种基于RSVD的生猪价格数据多级填充方法在审
申请号: | 201810548810.9 | 申请日: | 2018-05-31 |
公开(公告)号: | CN109064201A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 邓水光;王文文;于莹;张金迪;夏晨丰;董效贤;何钦铭 | 申请(专利权)人: | 浙江大学;北京农信互联科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多级填充 价格数据 因子矩阵 综合考虑 地理位置属性 地理位置信息 地理位置因素 市场价格信息 时序 变化趋势 缺失数据 已知数据 整体价格 拟合 受众 填充 收敛 直观 填补 传递 发布 | ||
本发明公开了一种基于RSVD的生猪价格数据多级填充方法,其采用了基于RSVD和KNN的方法,综合考虑了时间和地理位置因素,计算各个地区的K近邻地区的价格相关系数,之后采用RSVD方法,用于填充某一地区的缺失值。本发明方法在综合考虑了相关价格的时间和地理位置属性的基础上,还考虑了整体价格的变化趋势,使用已知数据不断的拟合因子矩阵,直到收敛,利用因子矩阵的乘积来填补缺失数据。因此,本发明能够较好地利用生猪价格的时序和地理位置信息,可以更及时地发布生猪市场价格信息,有效、直观地传递给相关受众。
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于RSVD(正则化奇异值分 解)的生猪价格数据多级填充方法。
背景技术
在生猪市场信息化的过程中,市场中的交易机构和相关公司逐渐积累了大 量的生猪价格数据及与生猪养殖相关的其他各类数据,包括全国各个区县的生 猪交易价格数据、历史饲料(包括玉米、豆粕)价格数据、历史生猪和能繁母猪存 栏数据等。利用这些历史数据,我们可以得到各个地区生猪的综合价格,即建 立生猪价格采集模型;通过生猪价格采集模型,各个地区的市场参与者,包括 养殖户、生猪收购人员、消费者,可以对当前的市场生猪价格有一个准确的了 解,对其投资与消费决策提供指导,减少因信息缺失与不对称导致的决策失误, 以及由此引发的生猪市场价格波动,对市场的稳定发展起到积极的作用。但是, 如何更好地利用这些数据,存在以下诸多挑战:
①各个地区的生猪价格历史数据来源多样,数据质量参差不齐,不能简单 地平均使用,需要确定不同来源的价格数据的合理权重分配。
②由于不同区县价格数据存在缺失,即许多区县在某些日期不存在交易记 录;这对价格采集模型的建立制造了诸多的困难,需要解决在一个确定的模型 中,对输入价格的缺失进行处理的问题。
③生猪是一种非标准的交易标的,与股票、期货、黄金等标准物品相比, 不同生猪的品质本身存在差异,生猪的交易地点也非常分散,生猪的交易价格 信息传递渠道也不够通畅,这是另一种层面的信息缺失,即每一条生猪价格成 交信息的自身特征是不确定的。
生猪市场迫切地需要建立和强化针对于生猪价格的动态监测和分析机制, 建立准确合理的生猪价格填充模型,并以互联网作为媒介及时发布生猪市场价 格信息,有效、直观地传递给相关受众;通过信息化手段,引导养殖户科学地 调整生产结构,稳定市场情绪,规避由此带来的市场风险。
基于大量的生猪价格历史数据,利用机器学习的相关算法,生成代表各个 地区的综合价格,并利用数据可视化技术,将价格信息快速、准确地传递给市 场参与主体,是信息时代、智能时代的发展要求,也是生猪产业进一步提升生 产效率、降低生产风险的必然需求。
目前常用的数据填充方法通常基于统计学原理,根据初始数据集中其余样 本取值的分布情况来对一个缺失值进行填充。数据挖掘中常用的有以下几种补 齐方法:(1)人工填写;由于最了解数据的还是用户自己,因此这个方法产生数 据偏离最小,可能是填充效果最好的一种。然而一般来说,该方法很费时,当 数据规模很大、空值很多的时候,该方法是不可行的。(2)平均值填充;将初始 数据集中的属性分为数值属性和非数值属性来分别进行处理,如果空值是数值 型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值, 以最大概率可能的取值来补充缺失的属性值,但是对于生猪价格容易受相关因 素影响,出现涨跌不定的情况,所以该方法没有利用价格的时序属。(3)KNN(K 最邻近分类算法);先根据欧式距离或相关分析来确定距离具有缺失数据样本最 近的K个样本,将这K个值加权平均来估计该样本的缺失数据;该方法只是考 虑的价格本身的因素,仍然没有考虑时间和地理位置等因素。(4)SVD填充;根 据SVD(奇异值分解)推论,任意矩阵都可被分解为两个矩阵的乘积,即任意U ×I的矩阵,都可被分解为一个U×K的矩阵与一个K×I的矩阵的乘积,其中K 为原始矩阵的秩,故缺失价格数据的矩阵也可被分解为两个矩阵的乘积,使用 已知的数据不断去拟合因子矩阵,最终收敛时,可由矩阵乘积得到未知的价格空缺。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学;北京农信互联科技有限公司,未经浙江大学;北京农信互联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810548810.9/2.html,转载请声明来源钻瓜专利网。