[发明专利]一种高通量测序数据前期处理方法有效
| 申请号: | 201510830815.7 | 申请日: | 2015-11-25 |
| 公开(公告)号: | CN105354442A | 公开(公告)日: | 2016-02-24 |
| 发明(设计)人: | 刘晶星 | 申请(专利权)人: | 广州金域检测科技股份有限公司 |
| 主分类号: | G06F19/18 | 分类号: | G06F19/18 |
| 代理公司: | 北京精金石专利代理事务所(普通合伙) 11470 | 代理人: | 刘晔 |
| 地址: | 510000 广东省广州市国际生物岛*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 通量 序数 前期 处理 方法 | ||
技术领域
本发明属于分子生物信息检测领域,具体涉及一种高通量测序数据前期处理方法及装置。
背景技术
高通量测序技术又称“下一代”测序技术,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志,应用到实际的样本基因检测中,单次实验通量非常大。这一测序技术极大地节约了检测成本,但同时也增加了实验中操作失误的风险。尤其是当第一步提取DNA就搞混样本的情况下,会导致大量样本与实验错误匹配,而在实验过程中几乎不可能检查出这类错误。若科研机构使用错误的测序信息进行进一步的实验或检测,其很有可能对科研结果起一定的误导作用,浪费科研精力;若医疗检测机构将匹配错误的测序分析结果作为治疗凭据,或将造成医疗纠纷甚至事故。
发明内容
针对现有技术的不足,本发明的目的旨在提供一种高通量测序数据前期处理方法及装置,有效率地排查出大部分样本与测序数据对应错误的问题。
为实现上述目的,本发明采用如下技术方案:
一种高通量测序数据前期处理方法,包含以下步骤:
S1、获取高通量测序数据,通过分析测序数据获得每一检测样本所属受检者的性别信息;
S2、将经分析得到的性别信息与相应样本申请单上受检者的性别信息对比,当分析所得的性别信息与相应样本申请单上受检者的性别信息均一致时,继续后续的数据处理;当分析所得的性别信息与相应样本申请单上受检者的性别信息存在差别时,输出数据与样本匹配有误的信息并停止处理数据。
1.优选地,本发明提供的高通量测序数据前期处理方法通过分析检测样本X染色体上突变频率在30%~70%之间的突变位点的杂合度判断该检测样本所属受检者的性别,分析方法为:
1)统计所有位于X染色体的突变位点总数N;
2)统计位于X染色体上突变频率在30%~70%之间的突变位点总数Nz,则X染色体杂合度为Nz/N;
3)杂合度高于20%的检测样本判断为女性受检者的样本,杂合度低于20%的检测样本判断为男性受检者的样本。
一种高通量测序数据前期处理装置,包括数据提取装置和分析对比装置:
数据提取装置,用于获取高通量测序数据;
分析对比装置,用于分析测序数据获得每一检测样本所属受检者的性别信息,并且将分析得到的性别信息与相应样本申请单上受检者的性别信息进行对比。
本发明的有益效果在于:由于从不同检测样本中提取的DNA并无本质区别,为区分一份数据是否对应申请单中的受检者只能通过性别来判断,虽然搞混的样本可能刚好性别一致就无法区分,但因高通量测序的实验通量较大,搞混的样本全部性别一致的可能性较小,因此本发明通过分析测序数据中每一个样本的性别是否与申请单中受检者的性别信息相匹配,可以发现几乎所有由于实验操作串位导致的样本与测序数据错误对应的问题,另外有50%的可能性发现两两交叉错误对应的问题,从而有效地排查出大部分检测样本与测序数据对应错误的问题,发明人将本发明提供的测序数据前期处理方法应用到实际的数据处理过程中,3月内即发现近20例样本与数据错误对应的问题,其中14例为一次实验操作串位导致的对应错误,其余为两两交叉错误;
女性的突变位点杂合度通常在40%以上(即使考虑近亲结婚及试验误差,杂合度也不会低于20%),而男性的通常在10%以下(即使考虑试验误差,杂合度也不会高于20%),本发明采用此指标区分性别有较高的区分度,并且分析速度快,对于目前高通量测序实验室中最常规的36样本试剂盒只需要几秒钟时间即可得到全部样本的性别信息;本发明提供的高通量测序数据前期处理方法不需实施成本,并且快速、可靠,有助于减少医疗纠纷甚至医疗事故,在高通量测序行业中具备广泛推广的前景。
附图说明
图1为一批样本中X染色体突变频率情况的统计图;
图2为1800个样本的X染色体突变频率分布情况图;
图3是本发明一种高通量测序数据前期处理装置的结构框图。
图4是本发明一种高通量测序数据前期处理方法的流程图;
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
实施例1
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州金域检测科技股份有限公司,未经广州金域检测科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510830815.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





