[发明专利]考虑重复性的碱基序列重组系统及方法在审
申请号: | 201310373186.0 | 申请日: | 2013-08-23 |
公开(公告)号: | CN103793624A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | 朴旻胥 | 申请(专利权)人: | 三星SDS株式会社 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 金光军;韩芳 |
地址: | 韩国*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 考虑 重复性 碱基 序列 重组 系统 方法 | ||
技术领域
本发明的实施例涉及一种用于分析基因组的碱基序列的技术。
背景技术
用于生产高容量短序列的第二代测序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成数据的能力而正在迅速地替代传统的桑格(Sanger)测序方式。并且,开发出了多种聚焦于准确度的NGS序列重组程序。然而,近来随着第二代测序技术的发展,制作片段序列的费用降低为过去的一半以下,随之可用数据的量增加,因此需要开发一种能够在短时间内准确地处理高容量短序列的技术。
序列重组的第一个步骤为通过碱基序列比对(alignment)算法而将短片段(read)映射(mapping)于参考序列的正确位置上。其中的问题在于即使是同种个体,也可能因多种遗传性变异而导致基因组序列上的差异。而且,测序过程中的误差也可能导致碱基序列上的差异。因此,碱基序列重组算法必须有效考虑这种差异和变异而提高映射准确度。
总而言之,为了对基因组信息进行分析,需要尽量多而准确的所有基因组信息数据。而且,为了达到这一目的,首先是要开发出具有很高的准确度和较大处理量的碱基序列重组算法。然而,现有技术中的方法在满足这些需求条件方面存在局限性。
发明内容
本发明实施例的目的在于提供一种可在确保映射准确度的同时通过改善映射时的复杂度而提高处理速度的碱基序列重组方案。
根据本发明一个实施例的碱基序列重组系统包括:片段序列生成单元,用于由短片段生成多个片段(fragment)序列;片段序列长度调整单元,从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列,并调整选择的片段序列的长度,直到所述选择的片段序列的映射重复数达到所述基准值以下;比对单元,利用所述片段序列执行全局比对(Global alignment)。
另外,根据本发明另一实施例的碱基序列重组系统包括:片段序列生成单元,用于由短片段生成多个片段(fragment)序列;筛选单元,用于从生成的所述多个片段序列中除去对象碱基序列上的映射重复数超过设定上限值的片段序列;比对单元,利用除了被除去的所述片段序列以外的其余片段序列而执行全局比对(Global alignment)。
另外,根据本发明一个实施例的碱基序列重组方法包括如下步骤:在片段序列生成单元中,由短片段生成多个片段(fragment)序列;在片段序列长度调整单元中,从生成的所述多个片段序列当中选择对象碱基序列上的映射重复数超过设定基准值的片段序列,并调整选择的片段序列的长度,直到所述选择的片段序列的映射重复数达到所述基准值以下;在比对单元中,利用所述片段序列执行全局比对(Global alignment)。
另外,根据本发明另一实施例的碱基序列重组方法包括如下步骤:在片段序列生成单元中,由短片段生成多个片段(fragment)序列;在筛选单元中,从生成的所述多个片段序列中除去对象碱基序列上的映射重复数超过设定上限值的片段序列;在比对单元中,利用除了被除去的所述片段序列以外的其余片段序列而执行全局比对(Global alignment)。
根据本发明的实施例,并不固定由短片段生成的片段序列的长度,而是根据各片段序列在对象碱基序列内的映射重复数而适当地扩增其长度,或者除去重复数过多的片段序列,从而具有可以提高映射准确度的同时也能提高速度的效果。
附图说明
图1为用于说明根据本发明一个实施例的碱基序列重组方法的图。
图2为用于举例表示根据本发明一个实施例的碱基序列重组方法中的最小误差估计值(MEB)e计算过程的图。
图3为用于说明根据本发明一个实施例的碱基序列重组方法中的片段序列提取过程示例的图。
图4为根据本发明一个实施例的碱基序列重组系统400的模块图。
图5为根据本发明另一实施例的碱基序列重组系统500的模块图。
符号说明:
400、500:碱基序列重组系统 402、502:片段序列生成单元
404:片段序列长度调整单元 406、506:比对单元
408、504:筛选单元
具体实施方式
以下,参照附图说明本发明的具体实施方式。然而这仅仅是示例,本发明并不局限于此。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星SDS株式会社,未经三星SDS株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310373186.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用