[发明专利]基于聚类与深度神经网络的关系型数据的连续特征嵌入方法在审
| 申请号: | 202210037678.1 | 申请日: | 2022-01-13 |
| 公开(公告)号: | CN114385713A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 丁国辉;张家豪;张琦;袁佺;窦晓之;王阳;尹海军;王磊;滕一平;朱继召;范纯龙;朱帅;李尧 | 申请(专利权)人: | 沈阳航空航天大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
| 代理公司: | 沈阳维特专利商标事务所(普通合伙) 21229 | 代理人: | 陈晖 |
| 地址: | 110136 辽宁省沈*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 神经网络 关系 数据 连续 特征 嵌入 方法 | ||
1.基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,其特征在于,包括如下步骤:
S1:采用XGBoost的工具包计算每个连续字段的重要性,得到关系型数据的连续特征的重要性排名;
S2:构建分桶器,用于通过Mean Shift聚类算法结合K-means聚类算法自动制定离散化规则,并将关系型数据的连续特征进行特征离散化;
S3:神经网络接收到通过分桶器进行特征离散化而产生的桶索引信息及每个特征值到每个桶中心点的距离信息;
S4:构建神经网络的Embedding层,用于以所述桶索引信息作为连续特征的离散值,使用神经网络学习桶索引的Embedding表示;
S5:构建聚合函数:根据聚合策略,利用分桶/离散化过程中产生的距离信息和桶索引的Embedding向量为不同的连续特征值分配独一无二的Embedding向量;
S6:将每个字段的特征向量或者原始值拼接成一个大的训练向量,依次输入到神经网络的全连接层等其他层里面,进行训练。
2.根据权利要求1所述的基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,其特征在于,所述Mean Shift聚类算法具体为:
以k个样本xi,其中i=1,2,……k形成的d维空间Rd中,选中x点作为初始中心点,以x为球心在d维空间Rd中划出半径为r的高维球区域Sr(x),落入该区域的样本点有n个;
Sr(x)={y:(y-x)T(y-x)≤r2} (1)
移动x点,移动方向为shift的方向,移动距离为||shift||,当||shift||≤min_dis时,x点停止移动,一次选点完成,其中min_dis是超参数;
所述K-means算法具体为:
有k个样本xi,其中i=1,2,……k,将这些点划分为n个簇Ci,其中i=1,2,……n),目标是小化平方误差E:
ui是簇Ci的质心。
3.根据权利要求1所述的基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,其特征在于,S5中距离信息和桶索引的Embeding向量的加权求和:
k是某个字段的一组桶嵌入中的桶的数量,dis(num,Bn)是连续特征值num到第n个桶中心点的距离,En是第n个桶对应的桶嵌入。
4.根据权利要求1所述的基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,其特征在于,还包括:S7:softmax函数输出,进行分类;采用交叉熵损失函数衡量当前分类结果和预期的分类结果:
交叉熵损失函数衡量了当前预测结果与实际结果之间的偏差程度。
5.根据权利要求4所述的基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,其特征在于,通过梯度下降使得权重和偏差改变,从而缩小上述偏差值,以下是参数通过梯度下降法更新参数的算法:
6.根据权利要求1所述的基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,其特征在于,所述S2具体包括:
S21:使用Mean Shift算法开始聚类,在某个连续字段的众多特征值形成的空间中选择一个初始中心点c,并确定了半径为r的圆形区域;
S22:计算区域内中心点c到其他数据点的向量,求这些向量的和shift;中心点c将沿着shift的方向移动L,L的大小为shift的模;
S23:重复S21,直到L小于一定的阈值;一次选点完成;
S24:通过以上几次聚类过程及簇的合并,最终确定了所有的中心点,完成Mean Shift训练;
S25:将所述中心点对K-means进行初始化;
S26:计算每个特征值到中心点的距离,特征值离哪个中心点近,就被划分到相应的簇;
S27:重新计算每个簇/桶的均值来更新中心点;
S28:重复S26,S27,直到中心点的变化幅度小于一定的阈值;分桶完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210037678.1/1.html,转载请声明来源钻瓜专利网。





