[发明专利]煤气井井段类型预测的代价敏感主动学习方法在审
申请号: | 201910776076.6 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110543983A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 汪敏;赵飞;闵帆;张樱弋;肖伊曼 | 申请(专利权)人: | 西南石油大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/02;G06K9/62 |
代理公司: | 51241 成都方圆聿联专利代理事务所(普通合伙) | 代理人: | 李鹏<国际申请>=<国际公布>=<进入国 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 加权 填补 样本 人工智能领域 回归计算 主动学习 缺失率 数据集 训练集 预测 购买 煤气 敏感 分类 | ||
本发明公开了一种煤气井井段预测的代价敏感主动学习方法,属于人工智能领域,选择最具有价值的缺失属性值进行购买,使得总代价最小。其中缺失属性值先由各属性的加权平均值进行填补,由softmax回归计算误分类代价,选择代价最小的填补方式,即为最有价值的缺失属性值。本发明的有益效果:1)本发明可以选出最有价值的属性和样本,减少了多余属性值的购买,降低了总体代价。2)在样本填补过后,将属性值齐全的样本加入初始训练集,可一定程度的提高模型的精确度。3)由于考虑了加权平均值,当数据集缺失率较高时,以加权平均值的填补可以使最终的预测精度提高。
技术领域
本发明属于人工智能领域,尤其是一种煤气井井段类型预测的代价敏感主动学习方法。
背景技术
ICSL:Incomplete information system cost sensitive active learning(不完备信息系统的代价敏感主动学习)
DP算法:Clustering by fast search and find of density peaks(基于快速搜索的峰值密度聚类)
随着我国经济的快速发展,煤层气的开采也有了一定的进步,但是煤层气在煤炭生产中被称为瓦斯,其在开采过程中依然存在安全隐患。因此,如何较快较准的预测煤气井中哪些井段值得开采成为了一个较困难的问题。
在煤气开采采集数据中,由于环境偏远、恶劣等原因,会造成数据采集存在大量缺值。对于存在缺失值的数据,如果不进行有效合理的处理,会造成数据资源的浪费,或导致建立错误的数据分析模型并产生错误的决策,造成更大的损失。
对于不完备数据集,目前的处理方式一般有删除、填补和不处理。删除法是指将存在缺失值的数据样本进行删除。填补法是指用一定的值去填充缺失值,从而使数据集完备化,通常根据数据集中其余对象取值的分布情况来对一个空值进行填充,例如均值填充、热卡填充、聚类填充等。同时,也有一些通过最小化代价选择特征子集的方法来处理不完备数据集。
本发明提出了一种考虑各种代价(误分类代价,属性代价,教师代价)的总值最小的算法,将基于属性的加权平均填补算法得到样本最小代价的填补方案,再通过主动学习的方式得到所有缺失样本的填补方案,最后通过各个样本相对应的方案进行属性购买,得到最后的总代价以及预测标签。本发明旨在如何较快、较准的预测每口煤气井中各井段的类型,从而给出相应开采意见。
现有技术一的技术方案
针对主动学习的缺失值问题:基于协同过滤加权预测的主动学习缺失值填补(CALF)
基于协同过滤加权预测的主动学习缺失值填补(CALF),将基于样本和属性的协同过滤算法对部分缺失值进行加权预测,再通过主动学习的方式直接得到部分特定缺失值的并填补;然后迭代此过程,直到所有缺失值被主动学习的真实值或协同过滤得到的预测值填补,最后再通过kNN和C4.5两个经典分类算法验证填补数据的质量。
CALF算法主要分为两个步骤,第一步分别基于样本和基于属性的协同过滤方法对缺失值进行加权预测,因此每个缺失值得到两个预测值。第二步是对每个缺失值的两个预测值求差,将差值排序后通过主动学习的方式获取部分缺失值的真实值。然后重复这两个步骤,直到所有的缺失值被填补完毕。
(1)在协同过滤加权预测评分阶段,算法将依次对数据集进行以下3步处理,对每个缺失值预测出基于不同标准的两个预测值:
1)根据离差标准化原理,对整个数据集进行归一化处理;
2)根据公式计算当前含有缺失值的样本与其他所有样本间的相似度,找到当前含有缺失值样本的k个邻居(样本),根据公式得到基于样本的协同过滤加权预测值;
3)根据公式计算当前含有缺失值的条件属性与其他所有条件属性的相似度,找到当前含有缺失值的条件属性的k 个邻居(属性),根据公式得到基于属性的协同过滤加权预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910776076.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理