[发明专利]一种基于分层技术的分类模型倾向性检验方法及系统在审

专利信息
申请号: 202110401349.6 申请日: 2021-04-14
公开(公告)号: CN113095411A 公开(公告)日: 2021-07-09
发明(设计)人: 张新菊;江海燕;翟璐璐;刘阳;赵宏生;魏永锋 申请(专利权)人: 应急管理部通信信息中心
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 江亚平
地址: 100013 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分层 技术 分类 模型 倾向性 检验 方法 系统
【说明书】:

发明涉及一种基于分层技术的分类模型倾向性检验方法及系统,其方法包括:步骤S1:获得训练好的分类模型、训练集和测试集;步骤S2:判断训练集中正负样本的比值,如果比值趋于1,执行步骤S3:否则执行步骤S4;步骤S3:从测试集中按预设的正负样本比值β和1/β,分层抽取两组样本集;将两组样本集输入训练好的分类模型,计算分类错误率指标,以判断训练好的分类模型的倾向性;步骤S4:从测试集中按预设的正负样本比值β、1和1/β,分层抽取三组样本集;将三组样本集输入训练好的分类模型,计算分类错误率指标,以判断训练好的分类模型的倾向性。本发明通过设置不相同的采样比例,在测试集上对模型倾向性进行检验,通过分类性能指标对模型倾向性做出评估。

技术领域

本发明涉及区块链和机器学习领域,具体涉及一种基于分层技术的分类模型倾向性检验方法及系统。

背景技术

在通过使用训练数据训练好一个机器学习分类模型后,通常情况下,一个好的分类模型应当能充分学习到训练数据的本质特征表达,同时在迁移到其他待分类的数据上也有很好的性能表现,即具有较好的泛化性。然而,由于模型性能不仅会受到自身算法设计的合理性的影响还会受到训练数据类别比例的影响,呈现出对某些类别数据识别性能好,对通过使用少数样本训练的数据类识别性能差的现象,如何验证模型是否存在对不同类别数据敏感性差异的问题(即倾向性),对于评估模型泛化性能以及数据集和识别任务调整上具有较大意义。

模型的分类性能评估的方法一般可以通过计算准确率、召回率、绘制混淆矩阵等指标来实现,由于这些指标没有考虑类别占比情况给模型分类性能带来的影响,模型倾向性结论需要挖掘工程师通过对多个指标进行综合分析才能得到,要求的门槛更高,有可能引发反复模型训练、模型预测、模型评估,过程更复杂效率低。然而,好的倾向性评估指标的确立需要花费较大的工作量,不易实现。综上所述,可以通过简单改变测试集类别比例的方式对训练模型进行测试,对比使用不同比例样本得到的对应的测试精度或者错误率是评估模型对不同类别识别敏感程度的一个较实用的方法,若模型的分类精度随着某种类别比例的增加而发生较大变化,则说明模型更倾向于去识别使测试精度提高的那个类别,若分类精度不随着类比占比变化而发生的较大的影响,则说明模型在训练过程中获得了充分的训练,不具有明显倾向性。然而,如何在不需要重新制定评估指标的情况下在资源有限的测试集上根据训练集比例去合理调整自身比例去做分类倾向性测试也是一个难点。

发明内容

为了解决上述技术问题,本发明提供一种基于分层技术的分类模型倾向性检验方法及系统。

本发明技术解决方案为:一种基于分层技术的分类模型倾向性检验方法,包括:

步骤S1:获得训练好的分类模型,以及模型训练使用的训练集和待测的测试集;

步骤S2:判断所述训练集中正负样本的比值,如果所述比值趋于1,则执行步骤S3:否则,执行步骤S4;

步骤S3:从所述测试集中按预设的正负样本比值β和1/β,分层抽取两组样本集;将两组所述样本集输入所述训练好的分类模型,计算分类错误率指标,以判断所述训练好的分类模型的倾向性;

步骤S4:从所述测试集中按预设的正负样本比值β、1和1/β,分层抽取三组样本集;将三组所述样本集输入所述训练好的分类模型,计算分类错误率指标,以判断所述训练好的分类模型的倾向性。

本发明与现有技术相比,具有以下优点:

1、本发明提供的方法在调整测试集类别占比时,结合了分层技术,根据实际需求有效调整了类别占比。本方法为了有效验证模型对不同类别样本数据识别的倾向性,调整了测试集中各类样本所占的比例,其中采用了分层采样技术,按照采样比多次采样,保证数据分布不变的情况下,有效重组了不同类别占比的测试资源。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于应急管理部通信信息中心,未经应急管理部通信信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110401349.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top