[发明专利]一种基于多目标人工蜂群算法的生物多序列对比方法在审
申请号: | 201710576125.2 | 申请日: | 2017-07-14 |
公开(公告)号: | CN107451426A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 匡芳君;张思扬;周文俊 | 申请(专利权)人: | 温州商学院 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06N3/00;G06N3/12 |
代理公司: | 温州名创知识产权代理有限公司33258 | 代理人: | 陈加利 |
地址: | 325000 浙江省温州市瓯海*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多目标 人工 蜂群 算法 生物 序列 对比 方法 | ||
技术领域
本发明属于生物信息学技术领域,尤其是涉及一种基于多目标人工蜂群算法的生物多序列对比方法。
背景技术
多序列比对(Multiple Sequence Alignment,MSA)作为生物序列分析的最基本任务之一,是生物信息学目前研究的热点问题之一,它是SPS(Sum-of-Pairs Score,配对得分总和)意义下的NP(Non-deterministic Polynomial,非确定多项式)完全组合优化问题。
目前用于解决MSA问题的方法主要有:遗传算法、带变异二进制粒子群优化算法、细菌觅食优化,人工蜂群算法和各种算法的混合使用方法以及基于图论的方法等。
但是,发明人发现,上述算法适用于多序列比对的过程中,要么控制参数多、收敛速度慢、计算量多且计算复杂,要么虽然具有控制参数少、全局寻优能力强、收敛速度快、鲁棒性强等优点,但当其接近全局最优解时,搜索速度变慢,甚至易陷入局部最优。因此,亟需一种具有较强的全局探索能力、局部开采能力且收敛速度快的算法适用于多序列比对,能获取较好的多序列比对性能和生物特性。
发明内容
本发明的目的是为了克服现有技术存在的缺点和不足,而提供一种基于多目标人工蜂群算法的生物多序列对比方法,该方法基于多目标人工蜂群算法,具有较强的全局探索能力和局部开采能力,收敛速度快,能获取较好的多序列比对性能和生物特性。
为了解决上述技术问题,本发明实施例提供了一种基于多目标人工蜂群算法的生物多序列对比方法,该方法包括以下步骤:
步骤1:设置多序列对比方法的初始参数,包括预先设定种群规模M、最大迭代次数Gmax、蜜源开采限制次数Limit以及当前迭代次数iter=0;
步骤2:对蜜源进行初始化及个体编码,并随机产生M个引领蜂;
设有N条序列参与比对,各条序列的长度依次为l1,l2,Λ,lN,并随机产生lmax和1.2lmax之间的随机数L作为比对后序列的长度;其中lmax=max(l1,l2,Λ,lN);
根据预设的序列比对的数学模型,将每条序列需要插入的空位数分别设为L-li,并随机生成N个1到L-li随机排列的一维矩阵αi后采用二维矩阵进行个体编码,得到每一个蜜源的编码为γ=[a1,a2,Λ,aN];其中,一维矩阵中存储的是各条序列所需插入空位的位置,在输入比对结果时将蜜源编码转化成对应的比对并以二维矩阵的形式存储;1≤i≤N;
确定随机产生的M个引领蜂及其对应的序列长度和序列;
步骤3:确定种群当前最优蜜源位置Ebest;
对每一个随机产生的引领蜂均根据下述公式(4)进行计算,计算出目标函数f1(Si)和f2(Si);其中,
式(4)中,g(S')=n1×gopen+n2×gextend表示对齐序列组S'的空位罚分,n1,n2分别为空位开放的数量和空位扩展的数量;Ω表示多序列比对空间;
令F1=(f1(S1),f1(S2),Λ,f1(SL)以及F2=(f2(S1),f2(S2),Λ,f2(SL),则计算出F=(min(F1),min(F2)),并记录种群当前最优蜜源位置Ebest;
步骤4:通过种群当前最优蜜源位置Ebest对每一个随机产生的引领蜂进行单点交叉操作产生新的引领蜂Vi;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州商学院,未经温州商学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710576125.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模内送料结构
- 下一篇:一种冲压机的压持送料构件
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用