[发明专利]模型训练及规则挖掘方法和系统有效
| 申请号: | 201810672460.7 | 申请日: | 2018-06-26 |
| 公开(公告)号: | CN109034201B | 公开(公告)日: | 2022-02-01 |
| 发明(设计)人: | 陈永环;邹泊滔;李思平;麥永賢;孙清清;王鑫云;钱宣统;赵云;顾曦 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06K9/62 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 规则 挖掘 方法 系统 | ||
1.一种模型训练方法,所述方法包括:
对非结构化文本数据类型的样本数据进行分词,根据分词结果构建DTM矩阵,根据所述DTM矩阵获取样本特征;
分别计算各个样本特征的优化参数,所述样本特征的优化参数用于表征所述样本特征对样本标签的贡献度;
根据所述样本特征对监督学习模型进行训练,并根据所述样本特征的优化参数计算所述监督学习模型的优化参数;
根据预设的目标函数从训练出的监督学习模型中选择目标监督学习模型,所述目标函数根据所述监督学习模型的优化参数设定。
2.根据权利要求1所述的方法,分别计算各个样本特征的优化参数的步骤包括:
分别计算所述样本特征在各条样本数据中的优化参数;
将所述样本特征在各条样本数据中的优化参数的绝对值进行求和,得到所述样本特征的优化参数。
3.根据权利要求1所述的方法,根据所述样本特征对监督学习模型进行训练的步骤包括:
对所述样本特征进行排列组合,得到若干个样本特征集;
分别根据各个样本特征集对监督学习模型进行训练,对应得到若干个监督学习模型。
4.根据权利要求1所述的方法,根据所述样本标签的优化参数计算所述监督学习模型的优化参数的步骤包括:
将所述监督学习模型中各个样本特征的优化参数进行求和,得到所述监督学习模型的优化参数。
5.根据权利要求1所述的方法,所述监督学习模型的优化参数包括可解释分值参数和/或可信度参数,所述样本特征的优化参数包括可解释分值参数和/或可信度参数。
6.根据权利要求5所述的方法,所述目标函数包括可解释分值参数目标函数和/或可信度参数目标函数;
其中,所述可解释分值参数目标函数为所述监督学习模型的可解释分值参数高于预设的可解释分值阈值,所述可信度参数目标函数为所述监督学习模型的可信度参数高于预设的可信度阈值。
7.根据权利要求6所述的方法,所述目标函数还包括GINI不纯度参数目标函数,所述GINI不纯度参数目标函数为所述监督学习模型的GINI不纯度参数高于预设的GINI不纯度参数阈值。
8.根据权利要求7所述的方法,所述GINI不纯度参数目标函数为:
式中,GINI为所述监督学习模型的GINI不纯度参数,p(i)为实际具有第i类样本标签的样本数据中,通过所述目标监督学习模型判别为具有第i类样本标签的样本数据所占的比例;n+1为样本标签的类别总数。
9.根据权利要求1所述的方法,在分别计算各个样本特征在每条样本数据中的优化参数之前,所述方法还包括:
对样本数据执行以下至少任一操作,得到所述样本特征:
数据清洗;和/或
归一化处理;和/或
特征工程。
10.根据权利要求1至9任意一项所述的方法,所述监督学习模型为决策树模型。
11.一种规则挖掘方法,所述方法包括:
根据决策树模型上从根节点到叶子节点之间的路径生成规则;
其中,所述决策树模型根据权利要求10所述的方法进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810672460.7/1.html,转载请声明来源钻瓜专利网。





