[发明专利]煤气井井段类型预测的代价敏感主动学习方法在审
| 申请号: | 201910776076.6 | 申请日: | 2019-08-22 |
| 公开(公告)号: | CN110543983A | 公开(公告)日: | 2019-12-06 |
| 发明(设计)人: | 汪敏;赵飞;闵帆;张樱弋;肖伊曼 | 申请(专利权)人: | 西南石油大学 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/02;G06K9/62 |
| 代理公司: | 51241 成都方圆聿联专利代理事务所(普通合伙) | 代理人: | 李鹏<国际申请>=<国际公布>=<进入国 |
| 地址: | 610500 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 加权 填补 样本 人工智能领域 回归计算 主动学习 缺失率 数据集 训练集 预测 购买 煤气 敏感 分类 | ||
1.一种煤气井井段类型预测的代价敏感主动学习方法,其特征在于:
优化目标:总代价最小
k-类别个数;m—属性个数;P(yj|xi)-某方案下第i个样本被分为第j类的概率;M-误分类代价;A-属性代价;T-教师代价;Xil-指示函数0/1,为1则表示购买相应位置的缺失属性值;
1)初始训练集
首先使用DP算法,产生c个聚类中心,选择这c个中心作为初始训练集,也是构成最终训练集的第一部分;方法对象:需要聚类的数据集;方法目的:以数据集中的每一个实例的密度为模型基础,将待聚类的实例进行聚类;
2)利用初始训练集,训练出θ
利用最大似然,对参数θ进行估计;
代价函数:
这里的i∈{1,2,…,N},表示第i个样本,其中N是总样本个数。j∈{1,2,…,k},表示第j个类别,其中k是总类别个数。加号后面为正则项,能使多余的θ衰减到0,并且加正则项后代价函数为凸,利用梯度下降可得到全局最优解,根据初始训练集可推导出最优参数θ;
具体求解方法:Softmax回归;
对于J(θ)的最小化问题,采用梯度下降法计算,Softmax的函数公式如下:
其中zj表示第j个样本的输入,aj表示第几个第j个样本归一化后的输出;
如果样本个数与类标签个数一致,即i=j时:
如果样本个数与类标签个数不一致,即i≠j时:
在J(θ)代价函数中取出对单一数据对(x(i),y(i))的损失函数loss为:
其中,ak表示第k个样本的输出,yk表示第k个样本对应的真实值,取值为0或1;
将C对θj求偏导:
其中L表示层数,通常指最后一层;
将损失函数扩充到整个数据集{(x(1),y(1)),...,(x(m),y(m))}上:
则有:
所以在进行随机梯度下降的时候,更新式为:
3)使用Softmax求出样本所属的类别概率
Logistic回归,其训练样本是
{(x(1),y(1)),…,x(m),y(m)},y∈{-1,+1},
训练好模型中的参数θ后,给一个新的x(i),就可以根据模型来预测x(i)对应的y(i)=1或0的概率;
Logistic回归处理的是二分类问题,而Softmax是在其基础上的扩展,处理的是多分类问题;
对于训练集{(x(1),y(1)),…,(x(m),y(m))},输入类标签y(i)∈{1,2,…,k};
Softmax回归中将x(i)分类为类别j的概率为
利用这个概率来计算误分类代价;
4)计算加权平均值
加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数,若n个数x1,x2,…,xn的权分别是w1,w2,…,wn,那么加权平均值为:
如果数据中各个数值为离散值,则在数据中取最小值和最大值组成区间[min,max],并将其等分为n个区间,计算落在各个区间的数据平均值以及数据个数k1,k2,…,kn,那么加权平均值为:
将求得的各属性的加权平均值,用于初始的属性值填补中;
5)求总代价
I)属性代价
根据样本中属性缺失的个数,进行不同的属性购买方案,选择不同的属性购买方案,属性代价不同,属性代价计算式为
II)误分类代价
根据上一步中的填补方案,不同的填补方案得到的softmax分类概率不同,选择概率最大的一个概率maxP(yj|xi),将其分类为该类别,则误分类概率为(1-maxP(yj|xi)),误分类代价为
(1-maxP(yj|xi))·M (12)
III)教师代价
选择样本各属性方案的属性代价与误分类代价之和的最小值,与教师代价做比较,如果大于教师代价,则选择教师代价,直接购买标签,反之则选择该方案下的softmax分类标签;
6)得到优化目标最优解时的方案列表
重复第5)点里的算法,得到整个数据集中每个样本在得到优化目标最优解时的方案,构成一个整体方案列表;
7)求预测标签
按照得到的方案列表,对每一个样本进行相应的真实属性值购买,并用softmax求得最终的分类结果。
2.根据权利要求1所述的一种煤气井井段类型预测的代价敏感主动学习方法,其特征在于:初始训练集具体步骤:
步骤一:计算所有节点间的距离dij;
步骤二:取一个截断距离dc;
步骤三:通过公式(2)计算每一个节点i的密度ρi;
χ(x)为一种0-1函数,当x<0时χ(x)=1,否则χ(x)=0,ρi的意义实际上是与节点i距离小于dc的节点的个数;
步骤四:对于每一个节点i,都找到所有比该节点i密度大的实例j,选取其中最小的距离dij,记为δi;
对于拥有最高密度的节点j,其δi为所有节点到节点i的最大距离;
步骤五:以ρ为横坐标,以δ为纵坐标,画二维图,在图上选取位于右上的节点作为类中心;
步骤六:将剩余点进行分配,对于每一个剩余点,其所属的聚类是其最邻近且密度比其大的节点的聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910776076.6/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





