[发明专利]一种基于双优选半监督回归算法的模型对脱丁烷塔底丁烷浓度进行预测的方法有效
| 申请号: | 201810454373.4 | 申请日: | 2018-05-14 |
| 公开(公告)号: | CN108734207B | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 熊伟丽;程康明;马君霞 | 申请(专利权)人: | 江南大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 张勇 |
| 地址: | 214000 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于双优选半监督回归算法的模型对脱丁烷塔底丁烷浓度进行预测的方法,属于半监督回归领域。通过一种双优选的策略,求出有标签样本密集区中心,并根据无标签样本与密集区中心的相似度筛选无标签样本,同时根据有标签样本间相似度筛选有标签样本;然后利用高斯过程回归方法对选出的有标签样本建立辅学习器,以对选出的无标签样本预测标签;最后利用这些伪标签样本提升主学习器的预测效果,解决了在标签样本很少时,无法保证对无标签样本利用的质量从而无法实现准确预测的问题,达到了利用很少的标签样本即可实现准确预测的效果。 | ||
| 搜索关键词: | 一种 基于 优选 监督 回归 算法 模型 丁烷 浓度 进行 预测 方法 | ||
【主权项】:
1.一种基于双优选半监督回归算法的模型预测方法,其特征在于,所述方法包括:步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1优选准则1描述如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与有标签样本密集区中心C的相似度di,若x′i与C的距离小于θ1,则x′i满足优选条件,其中,di由公式(1)~(3)获得;di=sqrt[(x′i‑C)′S‑1(x′i‑C)] (1)![]()
式中S为无标签样本协方差矩阵,n为无标签样本数目,
为无标签样本均值;优选准则2描述如下:给定一个阈值θ2,利用马氏距离来度量样本间的相似度d(xi,xj),统计样本xi与周围样本xj的马氏距离小于θ2的样本数量m,若m不小于2,则xi满足优选条件,其中,d(xi,xj)由公式(4)~(6)获得d(xi,xj)=sqrt[(xi‑xj)′S‑1(xi‑xj)] (4)![]()
式中S为有标签样本协方差矩阵,n为有标签样本数目,
为有标签样本均值;马氏距离表示数据的协方差距离,能够有效的计算两个未知样本集的相似度;无标签样本筛选算法如下:Step1:初始化1,i赋初值1,给定阈值θ3;Step2:依次判断xi是否满足阈值θ3限定下的优选准则2,即用θ3替换θ2作为相似度约束,选出其中满足条件的有标签样本组成矩阵A;Step3:利用所得的A矩阵求出样本密集区中心C:
其中l为A中包含的密集区样本个数,i表示样本的维度;Step4:由公式(1)~(3)计算每个无标签样本xi′与C的距离di,选出其中满足优选准则1的无标签样本存入矩阵M1中;步骤2:利用辅学习器建立算法,根据优选准则2选出有标签样本,建立一个更有针对性的辅学习器f1;辅学习器是利用有标签样本建立的一个模型,以预测无标签样本的标签;辅学习器建立算法如下:Step1:初始化2,i赋初值1;Step2:依次判断xi是否满足优选准则2,选出其中满足条件的有标签样本组成矩阵B;Step3:根据B利用高斯过程回归GPR建立辅学习器f1;GPR是一种基于统计学习理论的非参数概率模型,利用GPR建模如下:给定训练样本集X∈RD×N和y∈RN,其中X={xi∈RD}i=1...N,y={yi∈R}i=1...N分别代表D维的输入数据和输出数据,输入数据和输出数据之间的关系由公式(7)产生:y=f(x)+ε (7)其中f是未知的函数形式,ε是均值为0、方差为
的高斯噪声,对于一个新的输入x*,相应的概率预测输出y*也满足高斯分布,其均值和方差如式(8)和(9)所示:y*(x*)=cT(x*)C‑1y (8)
式中c(x*)=[c(x*,x1),…,c(x*,xn)]T是训练数据和测试数据之间的协方差矩阵,
是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x*,x*)是测试数据的自协方差;GPR选择高斯协方差函数:
式中v控制协方差的量度,ωd代表每个成分xd的相对重要性;对式(10)中的未知参数v,ω1,…,ωD和高斯噪声方差
的估计,采用极大似然估计得到参数![]()
求得参数θ的值的过程如下:为了跳出局部最优,将参数θ设置为不同范围内的随机值,在每个范围内选择一个随机值,范围选用不同量级,分别为0.001、0.01、0.1、1和10;采用共轭梯度法得到优化的参数;获得最优参数θ后,对于测试样本x*,通过式(8)和(9)估计GPR模型的输出值;步骤3:利用辅学习器f1对无标签样本集M1预测其标签,将所得的伪标签样本集S1添加到初始有标签样本集S中,利用GPR方法建立主学习器,其中,S为初始的有标签样本集;伪标签样本是指利用辅学习器人为预测无标签样本获得的样本,主学习器是利用有标签样本结合伪签样本建立的模型,以跟踪测试样本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810454373.4/,转载请声明来源钻瓜专利网。





