[发明专利]基于聚类与深度神经网络的关系型数据的连续特征嵌入方法在审
| 申请号: | 202210037678.1 | 申请日: | 2022-01-13 |
| 公开(公告)号: | CN114385713A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 丁国辉;张家豪;张琦;袁佺;窦晓之;王阳;尹海军;王磊;滕一平;朱继召;范纯龙;朱帅;李尧 | 申请(专利权)人: | 沈阳航空航天大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
| 代理公司: | 沈阳维特专利商标事务所(普通合伙) 21229 | 代理人: | 陈晖 |
| 地址: | 110136 辽宁省沈*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 神经网络 关系 数据 连续 特征 嵌入 方法 | ||
本发明公开了一种基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,首先利用无监督的机器学习(聚类)来得到连续特征的分布,然后结合连续特征的分布信息进行有监督的深度学习,实现对连续特征的自动嵌入。桶嵌入与距离比值的加权求和策略可以让相似的连续特征有相似的Embedding表示。根据特征值到桶中心点的距离,让每个桶的Embedding表示进行加权求和,可以充分利用每个桶之间的关联信息和数值特征与每个桶之间的关联信息。这样不仅消除了边界值嵌入问题即相似的连续特征值有明显不同的嵌入表示和相差很大的连续特征值有相同的嵌入表示,还在保证了数据连续性的情况下,将低维数据转化为高维数据,保护了连续特征的重要性。
技术领域
本发明公开涉及结构化数据技术领域,尤其涉及基于聚类与深度神经网络的关系型数据的连续特征嵌入方法。
背景技术
关系型数据属于结构化数据,它的行可以看作数据中的样本,它的列可以看作样本的特征。因为关系型数据高效的数据管理和展示能力,所以它被广泛应用于医学领域(如患者预测,死亡或发病事件预测),金融领域(如客户预测,信用评估),推荐系统(如点击率预测(CTR))。上述业务中,有很多业务的本质是通过对样本的分类来达到预测目的,也就是关系型数据的分类。
随着深度学习的发展,在图像、音频、文本等非结构化领域中,越来越多的分类模型被提出并表现出色。但是,在结构化领域中,深度学习一直没有突出的表现,甚至在多数分类任务中,像XGBoost这样的决策树会比深度学习表现得好。在结构化数据的分类任务中,关系型数据是一座“unconquered castle”,因为深度学习要面临诸多方面的挑战,比如脏数据,数据不平衡和数据量少是深度学习的第一个挑战。处理关系型数据的深度神经网络模型对特征值的扰动更加敏感并且不擅长处理稠密的连续特征是深度学习的第二个挑战,关系型数据的异构性结构对于深度神经网络来说是第三个挑战,而第四个挑战与特征嵌入有关。特征嵌入在基于深度学习的关系型数据分类任务中是非常重要的,特征嵌入也叫特征表示,特征编码,特征分布表示等等,其含义就是把特征值映射成某一个数值或者向量。使用特征嵌入的原因在于神经网络无法直接处理离散特征值。特征嵌入技术的选择会对模型直接产生影响,然而特征嵌入方式是非常广泛的,这是神经网络的第四个挑战。
对于离散特征嵌入,大致可分为两种方式,第一种方式是预处理的编码,例如one-hot编码和标签编码。如花有三种颜色:红,黄,蓝。颜色对于花是一个离散特征。标签编码形式:红是1,黄是2,蓝是3。标签编码会误导网络模型,因为在现实世界里,1+2=3,但是红+黄!≠蓝。One-hot编码形式:红是[1,0,0],黄是[0,1,0],蓝是[0,0,1]。One-hot编码形式的向量维度等于特征的数量,这样有可能导致数据稀疏。比如每个人都有民族这个离散特征,但是全世界有2000多个民族,这会导致维度爆炸,从而使网络出现过度拟合现象。One-hot编码的另一个缺点是无法让模型学到类别之间的相似性或者关联程度。第二种方式是自动编码,随着神经网络的训练,更新编码的参数,如Embedding。用Embedding替代one-hot编码,去除了数据稀疏的风险,减少了网络参数的数量,提高了网络的泛化能力。就目前来看,Embedding依旧是一个简单且成熟的编码技术。
但是对于连续特征嵌入,却缺乏研究,因为离散特征值的嵌入直接可以与连续特征值拼接成大的训练向量以供深度神经网络训练。但是这种简单的拼接方式,会造成离散特征在训练向量里被过度表示,而每个连续特征在训练向量里只占一个单位的空间,导致神经网络在做分类时对连续特征的利用能力下降。
发明内容
鉴于此,本发明公开提供了基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,以解决上述连续特征嵌入利用能力下降及sdb和dbs等问题。
本发明提供的技术方案,具体为,基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,包括如下步骤:
基于聚类与深度神经网络的关系型数据的连续特征嵌入方法,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210037678.1/2.html,转载请声明来源钻瓜专利网。





