[发明专利]基于注意力机制的机器学习模型的融合方法在审
| 申请号: | 202011595563.1 | 申请日: | 2020-12-30 |
| 公开(公告)号: | CN112633396A | 公开(公告)日: | 2021-04-09 |
| 发明(设计)人: | 杨晓东;卫浩 | 申请(专利权)人: | 四川新网银行股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N20/00 |
| 代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
| 地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 机制 机器 学习 模型 融合 方法 | ||
1.基于注意力机制的机器学习模型的融合方法,其特征包括:
步骤A.根据相应的应用场景,制定机器学习任务要学习的目标,并使用收集到的数据集通过现有方法训练得到至少两个子模型,各子模型根据输入的变量得到各自对应的输出结果,并将各子模型的输出结果组合成一个向量,向量中的每个元素对应一个子模型,将该向量存储到磁盘的结构空间中;
步骤B.构建注意力模块:在磁盘中划分出构建和保存注意力模块的结构空间,所述的注意力模块包括至少两个具有注意力机制的全连接神经网络,通过处理器从磁盘的结构空间中调取出所述的向量输入到注意力模块中,然后通过注意力模块对该向量进行升维,并学习向量中各元素之间的高维交互特征,然后对升维后的向量进行降维,再归一化后输出,降维后向量的长度即为子模型的个数,向量中每个元素按子模型输出结果的组合顺序分别对应一个子模型,元素的值即为注意力模块给该元素对应的子模型分配的注意力权重,由此完成注意力模块的构建;
步骤C.使用注意力模块融合子模型:对于某个需要预测的样本,将该样本的变量输入通过步骤A训练好的各子模型得到所述的向量,再由处理器将该向量从磁盘的结构空间中调取出来,输入步骤B所述的注意力模块中,然后将注意力模块的输出结果作为与各对应的子模型的权重,来对子模型的输出结果进行加权融合,得到最终的融合结果。
2.如权利要求1所述的基于注意力机制的机器学习模型的融合方法,其特征为:步骤B中,在完成注意力模块的构建后,再对该注意力模块进行优化,包括:
步骤B1.随机初始化通过步骤B保存到相应存储空间中的注意力模块的参数;
步骤B2.使用初始化后的注意力模块的输出作为权重对各子模型加权融合,并将融合后的模型保存在磁盘新的存储空间中,再使用融合后的模型的输出与步骤A所述的要学习的目标计算交叉熵的损失函数;
步骤B3.通过梯度下降方法,以最小化所述损失函数来优化注意力模块的参数;
步骤B4.重复步骤B3,直至损失函数的值不再变小,即得到了最优的注意力模块。
3.如权利要求1或2所述的基于注意力机制的机器学习模型的融合方法,其特征为:步骤A中,各子模型的输出结果组合成的向量为矩阵结构向量;步骤B中,通过对所述的矩阵结构向量进行矩阵相乘实现所述的升维。
4.如权利要求3所述的基于注意力机制的机器学习模型的融合方法,其特征为:步骤B中,通过矩阵相乘实现所述的对升维后的向量进行降维。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011595563.1/1.html,转载请声明来源钻瓜专利网。





