[发明专利]一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法无效
申请号: | 201210049757.0 | 申请日: | 2012-02-29 |
公开(公告)号: | CN102629255A | 公开(公告)日: | 2012-08-08 |
发明(设计)人: | 张虎勤;刘芳娥;吴晓明;杜建强;夏娟娟;刘晓刚;郭燕 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/12 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 弋才富 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mtdna 遗传信息 聚类分析 区域 人口 结构 分析 方法 | ||
1.一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,其特征在于,包括下列步骤:
步骤一、选择样本来源:根据数据库资源信息量,选择mtDNA高变I区长度为350bp序列,选择mtDNA高变I区在16026-16399区间序列,长度为350bp,进行聚类分析,依据数据库提供的原始数据,随机选取所选区域内的人口mtDNA数据在这个区间内具有完整信息的样本100-200个;
步骤二、构建遗传算法的K-modes聚类嵌合的分析模型:
遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率,在遗传K-modes算法中,采用聚类紧密度指标作为个体的适应度值,个体S的适应度函数定义为:
其中Si为类Cj内的元素,Zj为第j类的聚类中心,Dist表示距离度量,
步骤三、适应度函数f(s)分析:采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计,对所选择区域人类的mtDNA聚类分析,通过50-120次迭代使f(s)趋于稳定值,根据各区域通过不同的迭代次数使得适应度函数f(s)趋于稳定值,可以判定各区域人群的mtDNA差异度,使适应度函数f(s)趋于稳定值的迭代次数越多,对应的适应度函数f(s)稳定值越小,表明该区域人群的mtDNA差异度越高;
步骤四、聚类分析:依据遗传算法的K-modes嵌合模型算法,对每个区域内所选的人群mtDNA样本进行聚类分析,得到类群分布规律及各聚类中心之间的距离;
步骤五、区域人口结构分析:根据聚类分析结果,通过统计在各个类群的样本数占选择的总样本数的百分比从而推算出各个类群中的人口分布密度,从而对各区域的人口结构作出分析。
2.根据权利要求1所述的方法,其特征在于,所述的基于遗传算法的K-modes模型算法执行步骤为:
一、初始化种群,使每个个体表示一种分类方案,并对其进行编码;
二、从种群中选择一个个体,对序列对象进行编码,对编码后的序列对象进行聚类;
三、通过公式(1)计算聚类结果的聚类内紧密度值,并将该值作为个体的适应度值返回;
四、有未被选择的个体则返回到步骤(二);如果种群中所有个体都被选择过,通过循环语句判断算法是否已完成规定的f(s)迭代次数,若已完成规定的f(s)迭代次数则转到步骤(六);否则进入到步骤(五);
五、根据各个体的适应度值和遗传算法的参数采用精英保留策略,选择出适应度最高的个体,利用随机概率选择个体,通过交叉运算和变异运算的相互配合来优化种群,并返回到步骤(二);
六、输出最终结果,退出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210049757.0/1.html,转载请声明来源钻瓜专利网。