[发明专利]数据库驱动的原始测序数据的初步分析在审
| 申请号: | 201380065692.1 | 申请日: | 2013-10-11 |
| 公开(公告)号: | CN104919466A | 公开(公告)日: | 2015-09-16 |
| 发明(设计)人: | L·戈蒂埃;O·伦德 | 申请(专利权)人: | 丹麦技术大学 |
| 主分类号: | G06F19/22 | 分类号: | G06F19/22 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 徐金国 |
| 地址: | 丹麦*** | 国省代码: | 丹麦;DK |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据库 驱动 原始 序数 初步 分析 | ||
1.一种识别生物序列,如短读段,的可能来源的方法,该方法包括:
a)从一来源采样序列或短读段的子集,
b)将来自所述子集的序列分段成k-mer,
c)针对包括参考序列的k-mer的第一集合,查询来自所述子集的一个或多个k-mer,
d)针对包括k-mer在参考序列中的位置的第二集合,查询来自所述子集的一个或多个k-mer,
e)确定哪个/哪些参考含有所述一个或多个k-mer,和
f)返回对可能的来源参考的描述,
其中所述包括参考序列的k-mer的第一集合与包括k-mer在参考序列中的位置的第二集合是分离的。
2.如权利要求1的方法,其中所述方法不涉及对序列数据使用比对算法,例如采用评分矩阵的比对算法。
3.如任一前述权利要求的方法,其中所述查询进一步包括确定k-mer在所述参考序列中的位置。
4.如任一前述权利要求的方法,其中存在和位置被用来确定查询k-mer在参考序列中的的连续性。
5.如任一前述权利要求的方法,其中所述生物序列是氨基酸序列。
6.如权利要求1-4的方法,其中所述生物序列是DNA或RNA序列。
7.如任一前述权利要求的方法,其中k-mer查询涉及确定查询k-mer和参考k-mer之间的完全匹配。
8.如任一前述权利要求的方法,其中查询涉及从至少一个来源序列或短读段查询所有k-mer,优选从至少50,例如从至少100,如从至少150,例如从至少200,如从至少250,例如从至少300,如从至少400,例如从至少500,如从至少750,例如从至少1000,例如从至少1500,如从至少2000,例如从至少2500,如从至少5000或更多个序列。
9.如任一前述权利要求的方法,其中所述源序列是至少50个碱基的核苷酸序列,优选至少100个碱基,如至少150个碱基,例如至少200个碱基,如至少250个碱基,例如至少300个碱基,如至少400,至少500或更多个碱基。
10.如任一前述权利要求的方法,其中序列的子集包括至少1%的离散序列,例如至少2%,如至少4%,例如至少5%,如至少6%,例如至少7、5%,例如至少10%,如至少15%,例如至少25%,如至少30%,例如至少35%,如至少40%,例如至少50%。
11.如任一前述权利要求的方法,进一步包括选择序列的一个或多个另外的子集并将它们执行权利要求1的步骤a)至步骤f)。
12.如任一前述权利要求的方法,其中所述子集是随机的或过滤的。
13.如任一前述权利要求的方法,其中k-mer的大小为4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64或更长。
14.如任一前述权利要求的方法,其中k-mer是连续的。
15.如任一前述权利要求的方法,其中k-mer是重叠的并且增量为至少一个碱基或氨基酸,例如至少两个,如至少3个,例如至少4个,如至少5个,例如至少6个或更多。
16.如任一前述权利要求的方法,其中k-mer是不相交的子序列的串联。
17.如任一前述权利要求的方法,其中针对数据库查询来自给定序列的k-mer以确定k-mer在一个或多个参考序列中的存在和k-mer在所述一个或多个参考序列中的位置。
18.如权利要求17的方法,其中只在k-mer存在时才查询位置。
19.如任一前述权利要求的方法,其中为返回的参考计算得分。
20.如任一前述权利要求的方法,其中为识别的参考序列计算得分,所述得分与在给定的参考序列中发现的来自一个或多个序列的k-mer数目相关联。
21.如任一前述权利要求的方法,其中为识别的参考计算得分,所述得分通过在参考序列中发现的来自一个或多个序列的k-mer的平均局部集中度与连续性或近似连续性相关联。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丹麦技术大学,未经丹麦技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380065692.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





