[发明专利]基于层次化耦合关系的离散数据表征学习方法及系统在审
申请号: | 202110483315.6 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113158577A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 蹇松雷;黄辰林;谭郁松;李宝;董攀;丁滟;任怡;王晓川;张建锋;谭霜 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F17/16;G06K9/62;G06N20/00;G06F111/08 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 耦合 关系 离散 数据 表征 学习方法 系统 | ||
本发明公开了一种基于层次化耦合关系的离散数据表征学习方法及系统,本发明包括对输入的离散数据集合X,计算基于出现/共现频率的特征值影响力矩阵Mo和Mc以完成特征值耦合关系学习,进行聚类特征类学习得到特征值类的类别隶属关系矩阵C以完成特征值类学习,输入预先完成训练的自动编码器进行降维得到特征值表征矩阵V以完成特征值类耦合关系学习,将特征值表征矩阵V中取出每个特征值的连续表征拼接得到连续化数据表征R以完成离散数据表征学习。本发明能够有效提高提高离散型数据的使用效率和离散数据表征学习的信息量,能够在不利用数据标注的情况下,捕获到离散数据中的层次化耦合关系,从而为后续应用提供一个离散数据表征学习接口。
技术领域
本发明涉及人工智能领域,具体涉及一种基于层次化耦合关系的离散数据表征学习方法及系统,用于捕获离散数据中的层次化耦合关系,从而为后续的机器学习方法或者数据挖掘算法提供数据表征的支撑。
背景技术
具有有限离散值的数据在现实应用中非常常见,如统计数据中的性别、学历,交易数据中的类型、项目等,并且在数据表征和学习领域已经收到了充分的关注。和连续性数据不同,离散型数据不能直接进行代数操作,所以很多经典的离散型学习方法不能直接应用到离散型数据中。所以,学习离散型数据的连续型表征很重要。通常来说,一个好的表征应该有效抓住数据的内在特点。复杂离散型数据的一个重要数据特点就是特征值之间具有如下层次化的耦合关系(即依赖性或者相关性):(1)对于数据底层,属性值之间存在强烈的数据耦合关系,表现为属性值的自然聚类。(2)从更高层面来说,不同的属性值类相互也具有耦合关系。这种耦合关系不仅在同一个粒度的属性值类之间存在,也在不同粒度之间的属性值类存在。
对于以上离散型数据的层次属性耦合特点,现有的基于嵌入和相似度的表征方法都只能捕获或者不能捕获这些耦合关系。在离散数据表征中,编码(encoding)是最普遍的一种表征方式。其中最流行的方法是独热编码,即将每一列离散特征编码为一个二值矩阵(通常是0和1)。特征fi被编码为|Vi|(fi的特征值个数)个向量,其中每个向量只有一位为“1”对应一个特征值,其他全为“0”。尽管通过独热编码可以反编码原始数据,但是它隐含的假设是所有特征值都是独立和等价的,而事实上并非如此。同时,独热编码会导致表征的维度非常高,引起维度灾难。我们可以通过一些降维方法,如主成分分析(PCA),来降低独热表征矩阵的维度。另一个比较有名的编码方式是IDF编码,即通过每个特征值频率倒数的log值来表征这个特征值。IDF能从特征值出现频率的角度捕获一些数据特点。尽管这些编码方法实现简单效率很高,但是他们都无法捕获数据中复杂的特征值耦合关系典型的基于嵌入的表征方法通过编码规则将离散型数据转换成连续型,比如0-1编码和倒文本序(IDF)编码。这些方法虽然很容易实现,但是却没有考虑数据之间的耦合关系,因为他们总是将数据属性当作相互独立的。最近一些基于相似度的表征方法,比如在文献中提出的方法将属性关系考虑倒相似度或者核矩阵中。但是,他们并不能捕获从数据属性值到属性类的层次化耦合关系,也使得他们不能很好地处理这种带有层次化耦合关系特征的数据。
通过数据对象的两两相似度矩阵来表征离散数据也是一种常见的离散数据表征方法。在学习相似度的时候可以融入数据中的耦合关系:如ALGO使用特征值之间的条件概率来表述特征值耦合关系;DILCA和DM用特征选择和特征权重来衡量特征之间的耦合关系;COS考虑了特征之间和特征内部的耦合关系,CMS在COS的基础上提出了数据对象之间的距离度量。除此之外,还有一些基于嵌入的方法,例如在相似度矩阵的基础上优化了数据嵌入。其他的嵌入方法,如需要引入类标签来学习对象之间的距离,并不符合无监督任务的条件。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于层次化耦合关系的离散数据表征学习方法及系统,本发明提出了一个耦合的无监督离散数据表征学习CDRL(Categorical Data Representation Learning)的方法,在不利用数据标注的情况下捕获到离散数据中的层次化耦合关系,能够提高离散型数据的使用效率和离散数据表征学习的信息量,从而为机器学习方法或者数据挖掘算法提供数据表征的支撑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110483315.6/2.html,转载请声明来源钻瓜专利网。