[发明专利]煤气井井段类型预测的代价敏感主动学习方法在审

专利信息
申请号: 201910776076.6 申请日: 2019-08-22
公开(公告)号: CN110543983A 公开(公告)日: 2019-12-06
发明(设计)人: 汪敏;赵飞;闵帆;张樱弋;肖伊曼 申请(专利权)人: 西南石油大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q50/02;G06K9/62
代理公司: 51241 成都方圆聿联专利代理事务所(普通合伙) 代理人: 李鹏<国际申请>=<国际公布>=<进入国
地址: 610500 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 加权 填补 样本 人工智能领域 回归计算 主动学习 缺失率 数据集 训练集 预测 购买 煤气 敏感 分类
【权利要求书】:

1.一种煤气井井段类型预测的代价敏感主动学习方法,其特征在于:

优化目标:总代价最小

k-类别个数;m—属性个数;P(yj|xi)-某方案下第i个样本被分为第j类的概率;M-误分类代价;A-属性代价;T-教师代价;Xil-指示函数0/1,为1则表示购买相应位置的缺失属性值;

1)初始训练集

首先使用DP算法,产生c个聚类中心,选择这c个中心作为初始训练集,也是构成最终训练集的第一部分;方法对象:需要聚类的数据集;方法目的:以数据集中的每一个实例的密度为模型基础,将待聚类的实例进行聚类;

2)利用初始训练集,训练出θ

利用最大似然,对参数θ进行估计;

代价函数:

这里的i∈{1,2,…,N},表示第i个样本,其中N是总样本个数。j∈{1,2,…,k},表示第j个类别,其中k是总类别个数。加号后面为正则项,能使多余的θ衰减到0,并且加正则项后代价函数为凸,利用梯度下降可得到全局最优解,根据初始训练集可推导出最优参数θ;

具体求解方法:Softmax回归;

对于J(θ)的最小化问题,采用梯度下降法计算,Softmax的函数公式如下:

其中zj表示第j个样本的输入,aj表示第几个第j个样本归一化后的输出;

如果样本个数与类标签个数一致,即i=j时:

如果样本个数与类标签个数不一致,即i≠j时:

在J(θ)代价函数中取出对单一数据对(x(i),y(i))的损失函数loss为:

其中,ak表示第k个样本的输出,yk表示第k个样本对应的真实值,取值为0或1;

将C对θj求偏导:

其中L表示层数,通常指最后一层;

将损失函数扩充到整个数据集{(x(1),y(1)),...,(x(m),y(m))}上:

则有:

所以在进行随机梯度下降的时候,更新式为:

3)使用Softmax求出样本所属的类别概率

Logistic回归,其训练样本是

{(x(1),y(1)),…,x(m),y(m)},y∈{-1,+1},

训练好模型中的参数θ后,给一个新的x(i),就可以根据模型来预测x(i)对应的y(i)=1或0的概率;

Logistic回归处理的是二分类问题,而Softmax是在其基础上的扩展,处理的是多分类问题;

对于训练集{(x(1),y(1)),…,(x(m),y(m))},输入类标签y(i)∈{1,2,…,k};

Softmax回归中将x(i)分类为类别j的概率为

利用这个概率来计算误分类代价;

4)计算加权平均值

加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数,若n个数x1,x2,…,xn的权分别是w1,w2,…,wn,那么加权平均值为:

如果数据中各个数值为离散值,则在数据中取最小值和最大值组成区间[min,max],并将其等分为n个区间,计算落在各个区间的数据平均值以及数据个数k1,k2,…,kn,那么加权平均值为:

将求得的各属性的加权平均值,用于初始的属性值填补中;

5)求总代价

I)属性代价

根据样本中属性缺失的个数,进行不同的属性购买方案,选择不同的属性购买方案,属性代价不同,属性代价计算式为

II)误分类代价

根据上一步中的填补方案,不同的填补方案得到的softmax分类概率不同,选择概率最大的一个概率maxP(yj|xi),将其分类为该类别,则误分类概率为(1-maxP(yj|xi)),误分类代价为

(1-maxP(yj|xi))·M (12)

III)教师代价

选择样本各属性方案的属性代价与误分类代价之和的最小值,与教师代价做比较,如果大于教师代价,则选择教师代价,直接购买标签,反之则选择该方案下的softmax分类标签;

6)得到优化目标最优解时的方案列表

重复第5)点里的算法,得到整个数据集中每个样本在得到优化目标最优解时的方案,构成一个整体方案列表;

7)求预测标签

按照得到的方案列表,对每一个样本进行相应的真实属性值购买,并用softmax求得最终的分类结果。

2.根据权利要求1所述的一种煤气井井段类型预测的代价敏感主动学习方法,其特征在于:初始训练集具体步骤:

步骤一:计算所有节点间的距离dij

步骤二:取一个截断距离dc

步骤三:通过公式(2)计算每一个节点i的密度ρi

χ(x)为一种0-1函数,当x<0时χ(x)=1,否则χ(x)=0,ρi的意义实际上是与节点i距离小于dc的节点的个数;

步骤四:对于每一个节点i,都找到所有比该节点i密度大的实例j,选取其中最小的距离dij,记为δi

对于拥有最高密度的节点j,其δi为所有节点到节点i的最大距离;

步骤五:以ρ为横坐标,以δ为纵坐标,画二维图,在图上选取位于右上的节点作为类中心;

步骤六:将剩余点进行分配,对于每一个剩余点,其所属的聚类是其最邻近且密度比其大的节点的聚类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910776076.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top