[发明专利]一种基于深度学习的多模式数据融合方法有效
| 申请号: | 201611243618.6 | 申请日: | 2016-12-29 |
| 公开(公告)号: | CN106650817B | 公开(公告)日: | 2019-09-20 |
| 发明(设计)人: | 郭利;周盛宗;王开军;余志刚;付璐斯 | 申请(专利权)人: | 中国科学院福建物质结构研究所 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京元周律知识产权代理有限公司 11540 | 代理人: | 李颖 |
| 地址: | 350002 福建*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 模式 数据 融合 方法 | ||
本申请公开了一种基于深度学习的多模式数据融合方法,包括:对N个模式数据分别进行向量化处理;N为自然数,且N个模式数据中包括传感器数据;对N个模式数据中每一个模式数据建模,得到N个单模式数据;将得到的任意两个单模式数据进行融合,得到双模式数据;将包含相同模式数据的任意两个双模式数据进行融合,将任一个双模式数据和与该双模式数据不相同的单模式数据进行融合,得到三模式数据;以此类推,根据得到的N‑1模式数据进行N模式数据融合,得到N模式数据。本申请可以融合包括传感器数据在内的多种模式数据。
技术领域
本申请涉及一种基于深度学习的多模式数据融合方法,属于机器学习领域。
背景技术
深度学习已经成为在计算机视觉,语音分析和许多其他领域占优势的机器学习形式。深度学习采用与神经网络相似的分层结构,系统由包括输入层、多隐层、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接。
现有技术中,深度学习中多模式数据融合主要是使用深度自编码机实现音频、视频两种模式数据的融合,或者使用高斯伯努利限制波尔兹曼机、重复softMax限制玻尔兹曼机实现图片、文本两种模式数据的融合,或者使用深度玻尔兹曼机的深度学习实现音频、视频、文本等数据的融合。
但是在实际应用中,还包括大量的传感器数据,而目前还未有对音频、图像、文本、传感器数据等多种模式数据的融合。
发明内容
根据本申请的一个方面,提供了一种基于深度学习的多模式数据融合方法,该方法可以融合包括传感器数据在内的多种模式数据。
一种基于深度学习的多模式数据融合方法,包括:
对N个模式数据分别进行向量化处理;N为自然数,且N个模式数据中包括传感器数据;
对N个模式数据中每一个模式数据建模,得到N个单模式数据;
将得到的任意两个单模式数据进行融合,得到双模式数据;
将包含相同模式数据的任意两个双模式数据进行融合,将任一个双模式数据和与该双模式数据不相同的单模式数据进行融合,得到三模式数据;
以此类推,根据得到的N-1模式数据进行N模式数据融合,得到N模式数据。
其中,所述N为4,四个模式数据分别为音频数据、传感器数据、图像数据和文本数据。
其中,对音频数据进行稀疏化和向量化处理具体为:
根据第j个隐层神经元的平均激活度得到m为音频数据的个数,x(i)表示第i个音频数据;
其中,表示两个分别以ρ和为均值伯努力分布的相对熵,ρ为稀疏性参数,为隐藏神经元j的激活度,n为隐层神经元个数;
设定截断核范数;
然后进行稀疏自编码学习,得到稀疏化和向量化的音频数据Jsparse(W,b);
其中,hW,b(x(i))表示重建的x(i),β,α表示稀疏化惩罚因子的权重,W(1)表示可见层到第一隐层的权重。
其中,对传感器数据和图像数据进行稀疏化和向量化处理,具体为:
设神经网络为k层,设传感器数据和图像数据均由N个数据样本组成,每个数据样本为D维向量,第k层数据向量为
预设每一层的学习阈值为(b1,…bK),每一层的学习阈值逐渐增加;
进行可见层到第一隐层的学习,得到第一隐层的向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院福建物质结构研究所,未经中国科学院福建物质结构研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611243618.6/2.html,转载请声明来源钻瓜专利网。





