[发明专利]一种基于分子地图的生物样本智能识别方法有效
申请号: | 201711123297.0 | 申请日: | 2017-11-14 |
公开(公告)号: | CN109781917B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 张晓哲;赵楠 | 申请(专利权)人: | 中国科学院大连化学物理研究所 |
主分类号: | G01N30/88 | 分类号: | G01N30/88;G01N27/62;G01N33/483 |
代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 马驰 |
地址: | 116023 *** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分子 地图 生物 样本 智能 识别 方法 | ||
1.一种基于分子地图的生物样本智能识别方法,其特征在于:根据生物样本分子地图所蕴含的空间特征,而这些特征在不同类生物样本中呈现不同的分布模式,对未知样本进行识别与分类;
所述基于分子地图的生物样本智能识别方法,包括如下步骤:
A、生物样本提取物利用X-质谱仪器进行分析,得到X-MS数据,其中X代表气相色谱、液相色谱、离子色谱、凝胶色谱、毛细管电泳、离子迁移谱或其他任意一种能够在时间维度上对分子进行分离的方法,MS代表质谱;该数据中每个离子或化合物含有保留时间t、质荷比m/z或质量m、强度I三个维度的信息;X-MS数据中总离子的数量≥10;
B、X-MS原始数据经质谱信息提取工具Progenesis QI2.0或Peaks Studio7.0或Metlab16b处理,除去噪音,除去信噪比<1.5的离子,或者缺乏碳13同位素峰的离子,得到过滤后的X-MS数据;
C、以X-MS数据中的t,m/z或m分别作为横坐标和纵坐标两个维度,构建分子地图;图中的每个点对应X-MS数据中的一个离子,每个点具有自己的坐标t,m/z或m,每个点强度由点的大小或亮度的强弱表示;
D、分子地图的存储与分析格式为任一能够代表高维数据的格式,包括mzXML,xls,txt,mat,bmp或jpg的一种或二种以上;
E、在同一型号的仪器上采用相同的操作参数和条件,按上述A-D步骤操作,针对两个以上的类别的参照生物样本进行分析,获取X-MS原始数据,其中每一类别中参照样本的数量为1个或1个以上;利用图像生成软件将X-MS原始数据或多维信息文本转化为分子地图,得到参照样本的分子地图库;
F、采用相同的操作参数和条件,按上述A-D步骤操作,针对待分析的未知样本进行分析,获取X-MS数据;利用图像生成软件将X-MS数据或多维信息文本转化为分子地图,得到未知样本的分子地图;
G、利用机器学习中的图像分割工具,或聚类工具,将未知样本分子地图中的点分割为n个点簇,其中n≥1整数;
点簇指的是在空间上距离接近的点的集合,点簇内点的个数n≥3;
每个点簇有自己的中心点,点簇的形状为任意形状;
H、将提取点簇后的未知样本分子地图与参照样本分子地图库中的参照样本分子地图逐一进行分别扫描和匹配;
扫描时,将两个分子地图的原点、t轴和m/z或m轴对齐;
扫描时,点簇作为一个整体,移动的范围为0-Tk,Tk为参照样本对应的最大分析时间;
扫描时,未知样本的每个点簇保留其m/z或m轴的位置和几何形状,沿时间轴t进行扫描;
通过扫描,寻找未知样本点簇与参照样本分子地图中能够在t和m/z或m能够准确匹配的共同点;扫描过程中,在未知样本中的一个点簇中的点与参照样本分子地图中的点进行匹配时,每个点允许的t绝对偏移值(t tolerance)为≥T,T等于未知样本X-MS数据采集时色谱仪允许的保留时间平均偏移值与参照样本X-MS数据采集时色谱仪允许的保留时间平均偏移值之和;
扫描过程中,在未知样本中的一个点簇中的点与参照样本分子地图中的点进行匹配时,每个点允许的m/z或m绝对测定误差m/z或m tolerance≥A,A等于未知和参照样本X-MS数据采集时质谱仪扫描时允许的质量平均偏差之和;
当未知样本点簇内一个点与参照样本的某个点满足t偏差和m/z或m偏差时,认为该点符合匹配要求;
扫描时,点簇沿时间轴(t)扫描的步长≤T,0s<T<10000s;
其中,保留时间偏移值以绝对值表示,使用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算;
I、当一个点簇移动到参照样本分子地图的t轴的每一个位置时,记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标;
J、计算每一个位置时,未知样本一个点簇i,与该参照样本分子地图之间的匹配度Si,匹配度的大小利用统计工具计算点簇i与参照样本分子地图所匹配的点数、或相似度、或相关度中的一种或二种以上进行计算,其中,i≥1的整数;
由上述三种方法得到的匹配度分别由点数或点数的函数、相似度和相关度表示;
点簇匹配度大小,与点簇匹配的点数、坐标位置t,m/z和强度这四个变量呈线性或非线性相关;计算点数或点数的函数、相似度或相关度的基础是基于四个变量的关系变换;选用不同的匹配度计算方法分别计算点簇和参照样本分子地图的整体匹配度;
匹配点的个数指的是点簇符合匹配条件点的个数;基于上述步骤,对未知样本分子地图中每一个点簇的最大匹配度Si进行数学加权处理,得到未知样本分子地图与参照样本分子地图的整体匹配度Sc;
K、重复上述步骤,逐一分析未知样本分子地图与其它参照样本分子地图之间的匹配度,得到其与每一个参照样本的整体匹配度Sc;
L、未知样本的所属类别可不借助阈值或借助阈值进行判定;
当不借助阈值时,利用上述步骤,将未知样本与参照样本进行匹配,对匹配度从大到小进行排序,若未知样本与某一参照样本的匹配度排名越靠前,表明未知样本为与该样本的可能性越大,反之越小;
当借助阈值时,设定阈值ɤ,用于判断不同来源未知样本与同类参照样本匹配的可信范围;
阈值根据统计学的方法设定:重复上述步骤A-D,采用相同或相近的操作参数和条件,选取2个以上类别已知的同类别生物样本作为某一类样本的训练样本,进行分析,获取X-MS原始数据;利用图像生成软件将X-MS原始数据或多维信息文本转化为分子地图,得到该类样本的训练分子地图集;利用训练分子地图集,与同类参照样本分子地图进行匹配,通过统计学的方法发现匹配度分布区间,选定分布区间中匹配度的下限作为该类样本的阈值ɤ;
或,阈值利用文献报道或实验观察得到某类样本与参照样本匹配度分布区间,采用与步骤A-D相同或相近的操作参数和条件所得到的分析结果,选定分布区间中匹配度的下限作为该类样本的阈值ɤ,其中, n≥2;
将未知样本与参照样本进行匹配,匹配度按照从大到小进行排序,若未知样本与某类参照样本的匹配度排名越靠前,且Sc大于由该类参照样本测定所得的阈值ɤ,表明未知样本为该类样本的可能性越大,反之越小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院大连化学物理研究所,未经中国科学院大连化学物理研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711123297.0/1.html,转载请声明来源钻瓜专利网。