[发明专利]煤气井井段类型预测的代价敏感主动学习方法在审

申请号：	201910776076.6	申请日：	2019-08-22
公开（公告）号：	CN110543983A	公开（公告）日：	2019-12-06
发明（设计）人：	汪敏;赵飞;闵帆;张樱弋;肖伊曼	申请（专利权）人：	西南石油大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/02;G06K9/62
代理公司：	51241 成都方圆聿联专利代理事务所(普通合伙)	代理人：	李鹏<国际申请>=<国际公布>=<进入国
地址：	610500 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	加权填补样本人工智能领域回归计算主动学习缺失率数据集训练集预测购买煤气敏感分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种煤气井井段类型预测的代价敏感主动学习方法，其特征在于：

优化目标：总代价最小

k-类别个数；m—属性个数；P(y_j|x_i)-某方案下第i个样本被分为第j类的概率；M-误分类代价；A-属性代价；T-教师代价；X_il-指示函数0/1，为1则表示购买相应位置的缺失属性值；

1)初始训练集

首先使用DP算法，产生c个聚类中心，选择这c个中心作为初始训练集，也是构成最终训练集的第一部分；方法对象：需要聚类的数据集；方法目的：以数据集中的每一个实例的密度为模型基础，将待聚类的实例进行聚类；

2)利用初始训练集，训练出θ

利用最大似然，对参数θ进行估计；

代价函数：

这里的i∈{1，2，…，N}，表示第i个样本，其中N是总样本个数。j∈{1，2，…，k}，表示第j个类别，其中k是总类别个数。加号后面为正则项，能使多余的θ衰减到0，并且加正则项后代价函数为凸，利用梯度下降可得到全局最优解，根据初始训练集可推导出最优参数θ；

具体求解方法：Softmax回归；

对于J(θ)的最小化问题，采用梯度下降法计算，Softmax的函数公式如下：

其中z_j表示第j个样本的输入，a_j表示第几个第j个样本归一化后的输出；

如果样本个数与类标签个数一致，即i＝j时：

如果样本个数与类标签个数不一致，即i≠j时：

在J(θ)代价函数中取出对单一数据对(x⁽ⁱ⁾,y⁽ⁱ⁾)的损失函数loss为：

其中，a_k表示第k个样本的输出，y_k表示第k个样本对应的真实值，取值为0或1；

将C对θ_j求偏导：

其中L表示层数，通常指最后一层；

将损失函数扩充到整个数据集{(x⁽¹⁾，y⁽¹⁾)，...，(x^(m)，y^(m))}上：

则有：

所以在进行随机梯度下降的时候，更新式为：

3)使用Softmax求出样本所属的类别概率

Logistic回归，其训练样本是

{(x⁽¹⁾，y⁽¹⁾)，…，x^(m)，y^(m)}，y∈{-1，+1}，

训练好模型中的参数θ后，给一个新的x⁽ⁱ⁾，就可以根据模型来预测x⁽ⁱ⁾对应的y⁽ⁱ⁾＝1或0的概率；

Logistic回归处理的是二分类问题，而Softmax是在其基础上的扩展，处理的是多分类问题；

对于训练集{(x⁽¹⁾，y⁽¹⁾)，…，(x^(m)，y^(m))}，输入类标签y⁽ⁱ⁾∈{1，2，…，k}；

Softmax回归中将x⁽ⁱ⁾分类为类别j的概率为

利用这个概率来计算误分类代价；

4)计算加权平均值

加权平均值即将各数值乘以相应的权数，然后加总求和得到总体值，再除以总的单位数，若n个数x₁，x₂，…，x_n的权分别是w₁，w₂，…，w_n，那么加权平均值为：

如果数据中各个数值为离散值，则在数据中取最小值和最大值组成区间[min，max]，并将其等分为n个区间，计算落在各个区间的数据平均值以及数据个数k₁，k₂，…，k_n，那么加权平均值为：

将求得的各属性的加权平均值，用于初始的属性值填补中；

5)求总代价

I)属性代价

根据样本中属性缺失的个数，进行不同的属性购买方案，选择不同的属性购买方案，属性代价不同，属性代价计算式为

II)误分类代价

根据上一步中的填补方案，不同的填补方案得到的softmax分类概率不同，选择概率最大的一个概率maxP(y_j|x_i)，将其分类为该类别，则误分类概率为(1-maxP(y_j|x_i))，误分类代价为

(1-maxP(y_j|x_i))·M (12)

III)教师代价

选择样本各属性方案的属性代价与误分类代价之和的最小值，与教师代价做比较，如果大于教师代价，则选择教师代价，直接购买标签，反之则选择该方案下的softmax分类标签；

6)得到优化目标最优解时的方案列表

重复第5)点里的算法，得到整个数据集中每个样本在得到优化目标最优解时的方案，构成一个整体方案列表；

7)求预测标签

按照得到的方案列表，对每一个样本进行相应的真实属性值购买，并用softmax求得最终的分类结果。

2.根据权利要求1所述的一种煤气井井段类型预测的代价敏感主动学习方法，其特征在于：初始训练集具体步骤：

步骤一：计算所有节点间的距离d_ij；

步骤二：取一个截断距离d_c；

步骤三：通过公式(2)计算每一个节点i的密度ρ_i；

χ(x)为一种0-1函数，当x＜0时χ(x)＝1，否则χ(x)＝0，ρ_i的意义实际上是与节点i距离小于d_c的节点的个数；

步骤四：对于每一个节点i，都找到所有比该节点i密度大的实例j，选取其中最小的距离d_ij，记为δ_i；

对于拥有最高密度的节点j，其δ_i为所有节点到节点i的最大距离；

步骤五：以ρ为横坐标，以δ为纵坐标，画二维图，在图上选取位于右上的节点作为类中心；

步骤六：将剩余点进行分配，对于每一个剩余点，其所属的聚类是其最邻近且密度比其大的节点的聚类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西南石油大学，未经西南石油大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910776076.6/1.html，转载请声明来源钻瓜专利网。

上一篇：基于物流联盟的同城无人驾驶短驳车共享调度系统及方法
下一篇：一种基于水安全的城市水面率规划方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]煤气井井段类型预测的代价敏感主动学习方法在审

专利文献下载