[发明专利]一种基于非负矩阵分解的质谱数据缺失值填补方法及系统有效

专利信息
申请号: 202010701528.7 申请日: 2020-07-20
公开(公告)号: CN111859275B 公开(公告)日: 2022-08-12
发明(设计)人: 许晶晶;王远山;董继扬 申请(专利权)人: 厦门大学
主分类号: G06F17/16 分类号: G06F17/16
代理公司: 北京高沃律师事务所 11569 代理人: 崔玥
地址: 361005 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 矩阵 分解 数据 缺失 填补 方法 系统
【说明书】:

发明涉及一种基于非负矩阵分解的质谱数据缺失值填补方法及系统,包括:对数据集矩阵进行缺失值的预填补,得到无缺失的初始数据矩阵;对无缺失的初始数据矩阵中所有元素进行对数变换;取一组非负矩阵分解的维度参数,分别进行非负矩阵分解,得到对应的一组重构矩阵;对重构矩阵的元素值做指数变换;计算所有指数变换后的重构矩阵与无缺失的初始数据矩阵之间的重构误差;根据重构误差计算得到不同重构矩阵下各自对应的权重;对重构矩阵进行加权平均,得到加权重构矩阵;将加权重构矩阵中对应位置的元素值填补到数据集矩阵中的缺失位置;基于无缺失的最终数据矩阵进行特征代谢物识别及通路分析。本发明的上述方法能够提高数据填补精度。

技术领域

本发明涉及数据缺失处理领域,特别是涉及一种基于非负矩阵分解的质谱数据缺失值填补方法及系统。

背景技术

质谱技术是一种与光谱技术齐名的谱学方法,它通过制备、分离以及检测气相或液相离子来鉴定化合物的一种高分辨分析技术。由于质谱技术能够提供丰富的分子结构信息,且具有高特异性和高灵敏度等特点,目前已广泛地应用于化学化工、环境能源、医药、生命以及材料科学等多个领域。基于质谱技术的代谢组学研究是指采用气相色谱(gaschromatography,GC-)或液相色谱(liquid chromatography,LC-)与质谱(massspectrometry,MS)联用技术,对生物体中参与代谢活动的内源性代谢产物进行定性定量分析,以解释机体对基因、药物和环境等刺激因素的代谢响应规律。因此,质谱中采集得到的数据质量对后续的特征代谢物识别及通路分析至关重要。

事实上,从质谱仪中获得的数据通常包含一定数量的缺失值,即数据集中的某一样本的某一些元素无法识别。按照缺失值在数据集中的分布模式,可分为三类,完全随机缺失(missing completely at random,MCAR)(J.Y.LeeStyczynski,2018)、非随机缺失(missing not at random,MNAR)和混合缺失(mixedmissing,MM)模式。MCAR是指缺失值均匀分布在整个数据集中,这种缺失模式主要来自于数据采集过程中的随机误差或其他的一些处理错误(比如不完全电离等)。然而,大多数的缺失值并非完全随机发生,那些由于化合物分子浓度低于质谱仪器的检测阈值引起的缺失值被称为是MNAR(Kokla,Virtanen,Kolehmainen,Paananen,Hanhineva,2019)。MNAR只发生在特定的代谢物中,这些缺失值在数据集集中分布于离子丰度较低的化合物中,且缺失概率随着化合物离子丰度的升高而下降。混合缺失模式指的是数据集中同时存在MCAR和MNAR两种缺失。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010701528.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top