[发明专利]一种基于序列模式挖掘算法的系统发生树构建方法有效

专利信息
申请号: 201811408608.2 申请日: 2018-11-23
公开(公告)号: CN109545283B 公开(公告)日: 2020-11-10
发明(设计)人: 叶凯;康永永;杨晓飞;贾鹏;蔺佳栋;郭立 申请(专利权)人: 西安交通大学
主分类号: G16B40/00 分类号: G16B40/00;G16B30/00
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 安彦彦
地址: 710049 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 序列 模式 挖掘 算法 系统 发生 构建 方法
【说明书】:

一种基于序列模式挖掘算法的系统发生树构建方法,包括挖掘隐藏在序列集中能够用于衡量序列相似性的特异模式,得到初始模式集;过滤初始模式集中的非闭合频繁模式,得到更能够代表序列集的优化模式集;然后构造模式向量集,再计算模式向量之间的距离,进而构建用于生产系统发生树的距离矩阵。本发明采取序列模式挖掘算法来提取序列集中频繁出现的序列模式,然后利用过滤后的模式集将序列集转换为二进制或是赋有权重信息的模式向量集的形式计算距离矩阵,后而构建系统发生树。对大规模、低相似度的序列集,利用模式增长的策略可以挖掘序列集中更具代表性的模式,避免了提取对衡量序列相似性无用的冗余模式,优化了全局范围内序列之间相似性的衡量。

技术领域

本发明涉及一种系统发生树构建方法,具体涉及一种基于序列模式挖掘算法的系统发生树构建方法。

背景技术

自上世纪八十年代开始,伴随计算机技术,测序技术和分子生物学的不断发展,各国研究人员实施完成了多项基因组计划,通过基因组测序、蛋白质测序和结构解析等方法,积累了大量分子生物学数据。然而面对这些以指数速率增长的数据,研究者却只获得了少量有价值的信息,大量具有生物学意义的潜在信息淹没在各种各样的数据库中,人们分析处理数据的能力已经远落后于数据产生的能力。这就迫切需要计算能力更强大,硬件价格更优惠的计算设备以及数据分析研究者开发出复杂度更低、结果更优的算法来帮助人们分析处理各种各样的测序数据。面对种类繁多的测序数据,快速,高效地挖掘具有生物学意义的序列信息,已经是一个科学研究的热点问题,其中通过序列比对的方法,确定DNA、RNA、蛋白质序列之间可能的结构、功能、进化上的相似性是生物信息学中一个重要的基础研究。通过将未知序列和已知序列进行相似性比较,可以推测未知序列所具有的功能和特点,因为相似的序列很可能具有相似的结构,相似的结构也很可能具有相似的功能。以进化学说为理论基础,借助序列比对结果,如果比较的两条序列之间相似性足够高,那么就可推断这两条序列从同一个祖先进化而来,在进化分析中意义重大。

分子生物学中构建系统发生树一个重要且关键的步骤就是对序列进行相似性比较。衡量序列之间的相似性关系,目前的技术策略主要可分为基于多序列比对的方法和非序列比对的方法。

1,基于多序列比对的方法。

比较两条或是多条序列之间是否相似,传统方法一般采用基于动态规划算法的方法。简单来说,多序列比对的过程就是通过在序列中插入空格的方式,来让序列中更多相似的区域对齐的过程。这在序列相似度较高,序列集较小的时候,通常可以得的一个可靠的比对结果。但随着分子生物学的快速发展,人们测序积累了大量不同物种不同器官组织的序列数据,一次比对任务,参与比对的序列数目成百上千,且序列间的相似性可能很低,这就导致传统的比对方法,无法得到一个可靠的比对结果,或是直接无法比对。代表性的多序列比对工具有ClustalW家族软件和MUSCLE等。然而随着人们对复杂进化途径的理解和关于生物序列性质的熟悉,仅仅采用基于多序列比对的序列比较方法的缺点逐渐显露。主要有以下几点:

(1)基于比对的序列比较方法假设同源序列包含一系列线性排列和或多或少保守序列的延伸,然而这些假设通常与现实情况相违背。

(2)进化过程中,随着序列不断积累单碱基突变和一些小片段的插入和删除,序列之间的相似度越来越低,当序列相似性低于一定临界点时,基于比对方法的准确性将迅速降低,甚至无法比对。

(3)由于大多数多序列比对方法基于动态规划算法,时间复杂度高,资源占用多,尤其当有大规模低相似度的序列需要比对时,将是一个耗时耗力的过程。同时多序列比对计算是一个NP-hard问题。

(4)最终的比对结果会受到多个因素的影响,比对指导树的构建,替换计分矩阵的选择,空位罚分机制的设定等一些先验假设。

(5)两条序列之间的距离过度依赖于那些已经对齐的区域,忽略了一些本身含有一定生物学意义的序列片段。

2,非比对的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811408608.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top