[发明专利]基于结果画像的模型解释方法、系统、计算及存储设备有效
| 申请号: | 202011416347.6 | 申请日: | 2020-12-07 |
| 公开(公告)号: | CN112215366B | 公开(公告)日: | 2021-03-02 |
| 发明(设计)人: | 杨艾森;熊靖汶;陈文 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
| 主分类号: | G06N20/10 | 分类号: | G06N20/10;G06K9/62 |
| 代理公司: | 成都天嘉专利事务所(普通合伙) 51211 | 代理人: | 康拯通 |
| 地址: | 610000 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 结果 画像 模型 解释 方法 系统 计算 存储 设备 | ||
本发明公开了一种基于结果画像的模型解释方法、系统、计算及存储设备,涉及机器学习技术领域,将包括若干特征值的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习的输出结果,使用数学期望算法计算数据中各个特征值对所述输出结果的影响,按照各个特征值对输出结果的影响从大到小的顺序、采用聚类方法对模型输出预测结果相同的数据进行逐级划分,并得到划分后对应特征值的主要分布区间、进行簇标签构建绘制旭日图,是一种基于聚类方法、采用与模型无关的解释方法,给定有监督机器学习模型,结合样本数据和模型评估结果就能对模型进行解释,还能指导模型的改进的模型解释方法。
技术领域
本发明涉及机器学习技术领域,确切地说涉及一种基于结果画像的模型解释方法、系统、计算及存储设备。
背景技术
在传统统计中,通过调查大量的数据来构造和验证假设,而建立模型来构建规则则可以将其纳入模型中。例如,营销公司可以建立一个模型,将营销活动数据与财务数据相关联,以确定构成有效营销活动的是什么。这是一种自上而下的数据科学方法,可解释性是关键,因为它是所定义规则和过程的基石,由于相关性往往不等于因果关系,所以在进行决策和解释时,需要对模型进行很强的理解。
目前现有的模型解释方案,主要是采用线性回归、逻辑回归、决策树模型等传统可以自解释的统计模型,但是这些传统的可解释统计模型预测能力有限,并且随着大数据发展,需要分析的数据维度越来越高,这些模型不能很好的利用新的特征,因此,为追求更高的精度,更好利用多维数据的多个特征,需要使用更先进的机器学习模型。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,机器学习在生产和研究方面都非常具有潜力,但是机器学习模型具有不可解释性,如果使用不具有可解释性的机器学习模型,则不能说明其分析过程,采用这种模型预测结果风险是难以评估的。现有技术中也有利用可解释性模型局部探究不可直接解释模型的预测结果,通过重复对输入的轻微扰动探究模型输出结果的变化,拟合出一个局部可解释性的简单模型,但是该方法仅对模型的局部做了探究,不能做到全局近似而且这种方法也不稳定,不但需要确定邻域范围和近似模型复杂度,而且利用相同参数相同方法进行的重复解释可能得到不同结果。同样的,现有技术中还有结合具体案例解释模型的方法,但此类方法受限于案例和模型类型用途也很有限。
即,采用机器学习模型虽然高效但是不能说明其分析过程,则采用模型预测的结果风险难以评估,对于规则明确、市值较高的产业人们很难采信这种机器学习模型的预测结果,为更好在各种业务环境下利用机器学习模型,发明一种与模型无关的解释方法有重要意义。
发明内容
本发明的目的在于针对现有技术的不足、克服现有技术的缺点,提供一种基于聚类方法、采用与模型无关的解释方法,给定有监督机器学习模型,结合样本数据和模型评估结果就能对模型进行解释,还能指导模型的改进的解释方法即系统,以及对应的计算设备和存储设备。
本发明的目的是通过以下技术方案实现的:
基于结果画像的模型解释方法,包括以下步骤:
步骤1,将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习对数据分类的输出结果,比如数据中机器学习模型预测类别为1的数据归为一类,预测类别为0的数据归为一类;所述训练好的、给定有监督的机器学习模型,需要基于预测结果画像进行解释的机器学习模型,主要解释的内容就是机器学习模型的算法和监督规则等,即从机器学习的结果倒过来说明其采用的算法、逻辑和规则,因此,我们要将数据输入到我们需要进行解释的、训练好的、给定有监督的机器学习模型中,再通过对其结果进行倒推完成解释;而数值型特征的数据(metric data)是按数字尺度测量的观察值,其结果表现为具体的数值;反之则为非数值型特征的数据(NonnumericData),现实中所处理的大多数都是数值型数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011416347.6/2.html,转载请声明来源钻瓜专利网。





