[发明专利]一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法有效
申请号: | 201310585089.8 | 申请日: | 2013-11-19 |
公开(公告)号: | CN103559425B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 梁素钰;刘滨凡;田松岩;刘延坤;李琳;孙清芳;刘广菊;刘长乐;李云红;贾丹;杜倩;邵英男;王文帆;陈瑶;李东玫;刘玉龙;王刚 | 申请(专利权)人: | 黑龙江省森林工程与环境研究所 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 哈尔滨市船大专利事务所23201 | 代理人: | 张贵丰 |
地址: | 150081 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通量 基因 有效 数据 分类 目标 检测 系统 方法 | ||
1.一种高通量基因测序的有效数据分类寻优目标检测系统,包括依次相连的测序仪、数据库模块和数据处理模块,其特征是:所述测序仪对所需测序基因进行测序并将测序数据存储到所述数据库模块中;所述的数据处理模块包括数据归类模块、目标检测模块、有效数据模块、操作单元分类模块、相似度寻优模块、结果显示模块和无效数据模块,数据归类模块对所测数据序列进行归类处理,即所测数据序列若具有归类参数R所述性质,则进行读取归类,所测数据序列若不具有归类参数R所述性质,则该数据序列进入无效数据模块;目标检测模块对经过数据归类模块的循环递近归类后的数据序列进行同时满足所选归类参数有效值或有效定义的检测,通过同时满足所选归类参数有效值或有效定义的检测的数据序列,若是多于或者少于预定的实验分析数据序列数则进行数据优化;有效数据模块用以对满足循环递近归类的数据序列进行处理;操作单元分类模块用以对有效数据模块中的所有数据序列根据设定的相似度进行操作单元分类,并计算分类单元出现的频率;相似度寻优模块按照相似度的不同,设定相似度间隔百分点,将有效数据模块中的所有数据序列重新进行操作单元分类,输出操作单元分类结果及计算分类单元出现的频率;结果显示模块将目标检测模块的检测结果、有效数据的结果、操作单元分类模块的结果和计算分类单元出现的频率在结果显示模块上显示;无效数据模块存储数据归类模块和目标检测模块中的不符合要求的数据。
2.根据权利要求1所述的高通量基因测序的有效数据分类寻优目标检测系统,其特征是所述数据归类模块对所测数据序列进行归类处理具体包括:
从数据库中读取所测数据序列作为样本用S表示,样本总数为n,所测数据序列若具有归类参数R所述性质,则按以下步骤进行读取归类,所测数据序列若不具有归类参数R所述性质,则该序列进入无效模块;
(1)归类参数R,若有i个,则每个参数计为R1、R2、……、Ri,归类子模块个数为也为i个,计为:R1、R2、……、RI,归类循环级数为i-1级;所述归类参数R括序列长度、碱基有效序列、启动子序列、标签序列和控制序列等;
(2)根据归类参数的个数i,将所测数据序列总样本n分为i份,每份序列计为S1、S2、……、Si,每份序列中对应的序列个数相近,S1中的序列则计为S1-1、S1-2、……、S1-j1,S2则计为S2-1、S2-2、……、S2-j2,Si则计为Si-1、Si-2、Si……、S1-ji,其中,j1、j2、……、ji分别为每份样本中的序列个数,且满足j1+j2+……+jm总和为样本总数n;
(3)1级循环归类子模块的归类过程如下:
所测数据序列对应的1级归类子模块个数为i个,计为R1、R2、……、RI,总样本n也分为i份,每份数据序列计为S1、S2、……、Si,则1级归类对应关系为:
S1-R1、S2-R2、……、Si-RI;
输出的对应数据序列计为1S1、1S2、……、1Si;
(4)2级循环归类子模块的归类过程如下:
对应的2级归类子模块个数仍为i个,计为R1、R2、……、RI,经由1级归类子模块输出的对应数据序列计为1S1、1S2、……、1Si,则2级归类对应关系为:
1S1-R2、1S2-R3、……、1Si-R1;
则输出的对应数据序列计为2S1、2S2、……、2Si;
(5)依此类推,i-1级循环归类子模块的归类过程如下:
对应的i-1级归类子模块个数仍为i个,计为R1、R2、……、RI,经由i-2级归类子模块输出的对应数据序列计为(i-2)S1、(i-2)S2、……、(i-2)Si,则i-1级归类对应关系为:
(i-2)S1-RI、(i-2)S2-R1、……、(i-2)Si-R(I-1);
则输出的对应数据序列计为(i-1)S1、(i-1)S2、……、(i-1)Si;
(6)确定归类参数的参考值域或评判值域,如当归类参数R1是序列长度时,有效数据序列长度值域计为X,则数据序列长度值满足X时,进入归类参数R1子模块,若数据序列长度值不满足X时,则该数据序列进入无效模块;
(7)确定归类参数的参考值域或评判值域,如当归类参数R2是碱基误读时,单一数据序列所含碱基字母除A、T、C、G外,其余字母出现频度总和计为P,则序列出现频度值小于等于P值,进入归类参数R2子模块,若数据序列出现频度值大于P值,则该数据序列进入无效模块;
(8)确定归类参数的参考值域或评判值域,如当归类参数R3是启动子时,则数据序列中含有启动子序列的,进入归类参数R3子模块,若数据序列中不含有启动子序列的,则该数据序列进入无效模块;
(9)确定归类参数的参考值域或评判值域,如当归类参数R4是标签序列时,则数据序列中有标签序列的,进入归类参数R4子模块,若数据序列中不含有标签序列的,则该数据序列进入无效模块;
(10)确定归类参数的参考值域或评判值域,如当归类参数Ri是控制序列时,则数据序列中有控制序列的,进入归类参数Ri子模块,若数据序列中不含有控制序列的,则该数据序列进入无效模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江省森林工程与环境研究所,未经黑龙江省森林工程与环境研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310585089.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高温钎焊用铁镍基钎料
- 下一篇:圆锯机用精切调节工装
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置