[发明专利]一种基于遗传算法的数据模型训练样本的选取方法在审
申请号: | 201711159787.6 | 申请日: | 2017-11-20 |
公开(公告)号: | CN108053032A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 吕游;黄鑫;杨婷婷;刘吉臻 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06N3/12 | 分类号: | G06N3/12 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 102206 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 算法 数据模型 训练 样本 选取 方法 | ||
本发明提供一种基于遗传算法的数据模型训练样本的选取方法。本发明利用样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标,并将其作为适应度函数,利用遗传算法实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。
技术领域
本发明属于热工技术和人工智能交叉技术领域,涉及一种基于遗传算法的数据模型训练样本的选取方法。
背景技术
基于电站运行数据,采用多元线性回归、神经网络、支持向量机等技术构造一定的数学关系,可实现对电站机组参数的建模和估计。这种数据建模方法不需研究电站运行过程的内部规律,而是将其看作一个黑箱,从输入输出数据中提取有用信息,所建立的数据模型对机组参数的冗余测量及状态监控都有着重要的意义。
采用运行数据建立的模型对数据特性具有较强的依赖性。虽然电站历史数据库记录了大量的运行数据,但是大部分样本都集中在某些特定的工况下。样本的工况分布是构建数据模型时需要考虑的关键因素之一。利用充分变化并尽量覆盖全工况的数据样本更容易训练得到高精度的预测模型。本发明将训练样本的选取指标进行定量化,并将其作为适应度函数,利用遗传算法来实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。
发明内容
为了解决上述问题,本发明提供一种基于遗传算法的数据模型训练样本的选取方法,所述方法通过样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标,并将其作为适应度函数,利用遗传算法实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,构建高精度的数据模型,通过高精度的数据模型完成最佳训练样本的选取;
进一步地,所述方法包括:
步骤1):染色体编码及初始化:对要选取的样本序列进行二进制编码,共产生m条染色体构成种群,给定最大迭代次数为N,交叉概率pc,变异概率pm;
步骤2)确定适应度函数:考虑样本的分布距离大小和分布的均匀性,将样本选取指标进行定量化,并将其作为适应度函数;
步骤3):染色体交叉:在m个染色体中,依次取相邻的两个染色体按交叉概率pc进行多点交叉;
步骤4):染色体变异:在m个染色体中,对每个染色体按照变异概率pm进行多点变异;
步骤5):染色体处理:经过步骤2)和步骤3)之后,染色体s段基因中若出现某段的b位基因解码后大于n,则用该染色体尚未包含的最优样本序号的二进制编码进行替换;最优样本的确定方法是:逐个将未包含的数据样本序号加入该染色体后,适应度函数值增量最大的样本即为最优样本;
步骤6):染色体选择:根据步骤2)的适应度函数,计算各个染色体的适应度值,并按照轮盘赌选择新一代个体;
步骤7):记录每代最优染色体的适应度值,然后进入步骤3),进行下一次迭代,直至达到给定的迭代次数N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711159787.6/2.html,转载请声明来源钻瓜专利网。