[发明专利]一种基于非负矩阵分解的质谱数据缺失值填补方法及系统有效
| 申请号: | 202010701528.7 | 申请日: | 2020-07-20 |
| 公开(公告)号: | CN111859275B | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 许晶晶;王远山;董继扬 | 申请(专利权)人: | 厦门大学 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16 |
| 代理公司: | 北京高沃律师事务所 11569 | 代理人: | 崔玥 |
| 地址: | 361005 *** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 矩阵 分解 数据 缺失 填补 方法 系统 | ||
本发明涉及一种基于非负矩阵分解的质谱数据缺失值填补方法及系统,包括:对数据集矩阵进行缺失值的预填补,得到无缺失的初始数据矩阵;对无缺失的初始数据矩阵中所有元素进行对数变换;取一组非负矩阵分解的维度参数,分别进行非负矩阵分解,得到对应的一组重构矩阵;对重构矩阵的元素值做指数变换;计算所有指数变换后的重构矩阵与无缺失的初始数据矩阵之间的重构误差;根据重构误差计算得到不同重构矩阵下各自对应的权重;对重构矩阵进行加权平均,得到加权重构矩阵;将加权重构矩阵中对应位置的元素值填补到数据集矩阵中的缺失位置;基于无缺失的最终数据矩阵进行特征代谢物识别及通路分析。本发明的上述方法能够提高数据填补精度。
技术领域
本发明涉及数据缺失处理领域,特别是涉及一种基于非负矩阵分解的质谱数据缺失值填补方法及系统。
背景技术
质谱技术是一种与光谱技术齐名的谱学方法,它通过制备、分离以及检测气相或液相离子来鉴定化合物的一种高分辨分析技术。由于质谱技术能够提供丰富的分子结构信息,且具有高特异性和高灵敏度等特点,目前已广泛地应用于化学化工、环境能源、医药、生命以及材料科学等多个领域。基于质谱技术的代谢组学研究是指采用气相色谱(gaschromatography,GC-)或液相色谱(liquid chromatography,LC-)与质谱(massspectrometry,MS)联用技术,对生物体中参与代谢活动的内源性代谢产物进行定性定量分析,以解释机体对基因、药物和环境等刺激因素的代谢响应规律。因此,质谱中采集得到的数据质量对后续的特征代谢物识别及通路分析至关重要。
事实上,从质谱仪中获得的数据通常包含一定数量的缺失值,即数据集中的某一样本的某一些元素无法识别。按照缺失值在数据集中的分布模式,可分为三类,完全随机缺失(missing completely at random,MCAR)(J.Y.LeeStyczynski,2018)、非随机缺失(missing not at random,MNAR)和混合缺失(mixedmissing,MM)模式。MCAR是指缺失值均匀分布在整个数据集中,这种缺失模式主要来自于数据采集过程中的随机误差或其他的一些处理错误(比如不完全电离等)。然而,大多数的缺失值并非完全随机发生,那些由于化合物分子浓度低于质谱仪器的检测阈值引起的缺失值被称为是MNAR(Kokla,Virtanen,Kolehmainen,Paananen,Hanhineva,2019)。MNAR只发生在特定的代谢物中,这些缺失值在数据集集中分布于离子丰度较低的化合物中,且缺失概率随着化合物离子丰度的升高而下降。混合缺失模式指的是数据集中同时存在MCAR和MNAR两种缺失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010701528.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





