[发明专利]一种真核生物来源成分的分子鉴定方法及系统在审
申请号: | 201710191770.2 | 申请日: | 2017-03-28 |
公开(公告)号: | CN106971088A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 王俊宁 | 申请(专利权)人: | 泽塔生物科技(上海)有限公司 |
主分类号: | G06F19/16 | 分类号: | G06F19/16;G06F19/18 |
代理公司: | 上海骁象知识产权代理有限公司31315 | 代理人: | 赵俊寅 |
地址: | 201203 上海市浦东新区张江*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生物 来源 成分 分子 鉴定 方法 系统 | ||
技术领域
本发明属于生物技术领域,具体涉及一种真核生物来源成分的分子鉴定方法及系统。
背景技术
现有鉴定真核生物来源成分的分子生物学方法几乎都是基于特异性核酸探针的方法。例如,基于特异性引物的聚合酶链式反应(PCR)扩增,或者特异性寡聚核苷酸探针(生物芯片)的方法。通过考察PCR反应扩增产物的电泳条带/测序结果,或是根据探针的杂交信号进行有限的成分来源判断。
这些方法的缺陷是一个测试中能鉴定物种的分类阶元范围有限,通用性差,通量低并且假阴性率高(分子探针脱靶)。面对检材成分完全未知的情况下,往往无法选择合适的探针进行工作。
发明内容
技术问题是为真核生物来源成分的分子鉴定提供一种适用范围广、通用性强的分子鉴定方法及系统。
有鉴于此,本发明实施例提供一种真核生物来源成分的分子鉴定方法及系统用以解决上述的技术问题。
问题的解决方案:
本发明提供了一种真核生物来源成分的分子鉴定方法,包括步骤:
将检材DNA的全基因组鸟枪法测序序列作为输入数据进行输入;
对输入数据进行特征计算;
使用预存在数据库中的标准序列对输入数据特征进行查询,获得输入数据特征同标准序列的比对结果;
根据比对结果进行物种判定。
进一步的,所述检材DNA的全基因组鸟枪法测序序列包括原始测序序列和序列拼装。本方案中,该方法在适用于单种真核生物来源成分判定的同时,也能够完成混合样本的真核生物来源成分的判定。
进一步的,所述输入数据是由高通量并行测序设备接口输出的。过高通量并行测序取得数据,使得混合来源样本可以得到区分识别。
进一步的,所述使用标准序列对输入数据特征进行查询,获得输入数据特征同标准序列的比对结果的步骤包括:
将输入数据特征和数据库中标准序列的标准分子标记序列特征进行匹配、距离计算和打分排序;
进行统计推断,得到输入数据中含有的分子标记序列特征的来源推断和相对含量;
从输入数据中获取标记分子序列,并和标准分子标记序列进行对比,确认来源成分。通过对计算得到的输入数据特征,进行同标准序列的对比,并通过匹配、距离计算和打分排序,能够搜索匹配数据库中的记录,并判断命中记录的真实性概率。
进一步的,所述根据比对结果进行物种判定的步骤包括:
对来源成分进行定性和定量分析,输出物种判定结果。
进一步的,所述标准分子标记序列包括细胞器基因组中的序列如CO1基因序列、rbcl基因序列和matK基因序列的一种或多种;
所述标准分子标记序列特征包括使用滑动窗口切割CO1基因序列、rbcl基因序列和matK基因序列中的一种或多种得到的预存K-mer数据;
所述输入数据特征包括切割输入数据得到的K-mer片段。本方案中,该标准分子标记序列将主要通过其中的CO1基因序列、rbcl基因序列或matK等基因序列进行对比。
进一步的,在序列匹配时,预存K-mer数据将作为虚拟探针,同输入数据中的K-mer片段进行匹配,以判断预存K-mer数据是否对应存在于输入数据中。将输入数据和标准序列切割为相同的K-mer长度,直接对原始数据中的k-mer成分进行有无分析,使得检测限可低至输入仅含一条标记分子序列,灵敏度高。
进一步的,若某一分子标记预存的K-mer数据被判定对应存在于输入数据中,则将该预存K-mer数据对应的标准分子标记序列作为对比模板,同输入数据的原始数据或拼装数据进行比对,以获得物种判定结果。本方案中,根据分子标记的计数判断相对丰度,并输出结果。
进一步的,所述数据库至少包括线粒体/叶绿体基因组数据库,线粒体/叶绿体基因组内含基因的序列片段数据库,线粒体/叶绿体基因组元信息数据库,线粒体/叶绿体基因组序列衍生特征数据库。这些数据库在鉴定过程的不同步骤中使用。
本发明还提供了一种真核生物来源成分的分子鉴定系统,其特征在于,包括:
高通量并行测序设备接口,用于将检材DNA进行测序,并将得到的全基因组鸟枪法测序序列作为输入数据进行输入;
特征计算单元,用于对输入数据进行特征计算;
数据库,用于存储包括标准序列在内的数据;
对比单元,用于使用标准序列对输入数据特征进行查询,获得输入数据特征同标准序列的对比结果;
判定单元,用于根据对比结果进行物种判定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泽塔生物科技(上海)有限公司,未经泽塔生物科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710191770.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用