[发明专利]一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系有效
申请号: | 201810149895.3 | 申请日: | 2018-02-13 |
公开(公告)号: | CN110211639B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 陈华;赵石磊;马亮;石承民 | 申请(专利权)人: | 中国科学院北京基因组研究所 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王文君;王璐 |
地址: | 100101 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明属于分子生物学和遗传学领域,具体公开了一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。所述构建方法包括对遗传标记数据进行数据分割和遗传标记挑选,或视情况对分割后的数据进行过滤,或对挑选后的遗传标记进行整合优化。采用本发明所述的方法可成功地使计算的复杂度从O(2 |
||
搜索关键词: | 一种 群体 区分 鉴定 遗传 标记 参照系 构建 方法 | ||
【主权项】:
1.一种群体区分和鉴定的遗传标记参照系的构建方法,其特征在于,包括如下步骤中的步骤(1)和步骤(3),或包括如下步骤中的步骤(1)‑(3),或包括如下步骤中的(1)、(3)、(4),或包括如下步骤中的(1)‑(4):(1)数据分割:以已知的遗传标记数据库作为样本,按照遗传信息差异对样本数据进行分割,得到多个类;(2)数据过滤:计算各个类中遗传标记的FST值,并据此对各个类中的遗传标记进行降序排列,当数据中包括的遗传标记数目小于或等于50000时,全部用于下一步分析,当数据中包含的遗传标记数目大于50000时,保留各类中排列于前2%~10%个遗传标记;(3)遗传标记挑选:针对数据过滤后的各类遗传标记,运用特征选择算法挑选出可保留每个类的最大区别力的一个子集,该子集的集合即可作为遗传标记参照系;其中,所述特征选择算法如算法一所示:算法一:步骤一:产生#L个以不同特征(遗传标记)为起始元素且长度为u的特征序,对于
以
表示第一个元素为l长度为u的序列,其产生过程如下:S1、对于
产生
其中l1=l;S2、对于任意2≤i≤u,若已有
选可极大化累计分类能力(CCA)的特征作为第i个元素,
并产生
其中
表示子集
的余集;步骤二:比较#L条序列的累计分类能力,并选择最优序列作为极大分类(特征)集(MaC集),
其中
(4):整合优化;具体为:运用另一个特征选择算法,将从每个类中挑选的子集整合成一个综合参照系;其中,所述另一个特征选择算法如算法一所示:算法二:基于贪婪式的逐步添加/验证的算法,对由各子类挑选出的MaC集进行优化整合,并产生全局最优特征(遗传标记)集合P;若已经根据不同子类的组合筛选出m个MaC集,则:步骤一:由于每个MaC集都是一个特征序列,即特征的排列是有顺序的;设置m个指针,并分别指向每个MaC集的第一个元素;初始化空集P;步骤二:依次测试将每个指针对应的特征加入集合P后应用此集合遗传标记对已知类别进行分类的平均精度增益;保留获得最高平均精度增益的特征做为P的新元素,并将指向此特征的指针在相应的MaC集中依序向后移动一个元素;步骤三:当满足下列任一条件时,终止向P继续添加新元素:1)应用P集中的特征对已知类别进行分类已达到预设的平均精度;2)P集中的特征数量已达到预设值;否则,返回步骤二。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院北京基因组研究所,未经中国科学院北京基因组研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810149895.3/,转载请声明来源钻瓜专利网。