[发明专利]一种基于正则表达式的N糖结构库构建方法与系统有效
申请号: | 201711235673.5 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108052801B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 张晓今;曾文锋;吴建强;孙瑞祥;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G16B50/30 | 分类号: | G16B50/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 正则 表达式 结构 构建 方法 系统 | ||
本发明涉及一种基于正则表达式的N糖结构库构建方法与系统,包括:将五糖核心中每个单糖作为一个节点,为各节点进行编号以明确节点所代表的单糖类别,根据各节点间的连接关系和编号,计算五糖核心中每个节点的正则表达式,并将所有正则表达式集合,作为x糖结构字符串码,其中x为糖结构所具有的节点数;以正则表达式为基础,通过枚举法生成节点数目为x+1的糖结构的字符串码,作为x+1糖结构字符串码;根据x+1糖结构字符串码,对生成的节点数目为x+1的各个糖结构去冗余并判断其结构的合理性,将合理且没有冗余的x+1糖结构输出到文本文件中,并将文本文件作为N糖结构库。本发明节省了枚举糖库过程中的空间开销,还有效地提高了糖结构的枚举速度。
技术领域
本发明涉及生物信息学中的糖蛋白质组学领域,特别涉及一种基于糖结构的正则表达式的N糖结构库构建方法与系统。
背景技术
N糖基化是蛋白质的一种非常普遍的翻译后修饰,对生物的功能起着不容忽视的调控作用。据估计,大约有50%的哺乳动物的蛋白质发生了糖基化。近年来,人们开始用各种数据库来存储糖链信息,然而这些数据库存储单糖种类及连接关系的方法各不相同,给糖库的比较与使用带来了很大的不便。肽段的线性结构使其可以直接在计算机中用线性字符串表示,而糖的分支结构大大增加了其在计算机中存储的难度。于是,数据库构建者纷纷提出了不同的糖结构的存储格式,比如,GlycoSciences.de采用LINUCS格式,KEGG采用KCF格式,EUROCarbDB采用GlycoCT格式,却导致了很多互不兼容的存储格式的产生,而大部分存储格式只用于了一个糖库。大部分表示方法既不能同时易于人工解读及计算机存储,也很难直接用来判断糖结构是否互为同构冗余。
GlycomeDB集成了七个公开的糖库,成为当前得到广泛应用的糖库。一些依赖于数据库搜索的糖肽鉴定软件也基于特定的实验需求构造了不同的糖库,比如,GRIP构造了一个由三个最大可能的N糖结构的Y离子组成的N糖库,GlycoMasterDB和ArMone2.0提取出GlycomeDB中的N糖作为N糖库。然而,大部分N糖库所包含冗余糖结构是不完整的。目前基于质谱的糖肽鉴定软件只考虑到了单糖之间的拓扑结构,而忽略了单糖之间的连接位点信息,因此可以暂且把糖结构看成是树形结构。若同构的糖结构有相同的理论谱图,则称这些糖结构互为冗余。一些被当前的糖肽鉴定软件广泛使用的糖结构库如GlycomeDB中包含着大量这样的冗余结构,这些冗余结构的存在可能会降低糖肽鉴定软件的性能。另一方面,人们对糖基转移酶的研究尚处于探索阶段,糖链在生物体内的合成机制仍没有模板,因此可能有一些糖结构还未被发现。基于糖库鉴定谱图时,如果糖库不全,正确的糖结构没有包含在糖库中,则可能导致错误鉴定。因此,构造一个不包含冗余糖结构且全面的糖库至关重要。
为了解决上述问题,本发明提出了一种不仅便于计算机存储及解析,还具备易于人工解读的性质的糖结构的线性正则表示(Regular Expression)方法,把糖结构映射为线性正则字符串码,并且满足糖结构同构需当且仅当糖结构对应的字符串码相等,从而把糖结构的同构判定问题转换成了字符串的比较问题。另外,给定糖结构的节点数目范围,本发明基于糖结构的线性正则字符串码,枚举了所有包含五糖核心的可能的糖结构,从而得到了一个更加全面的糖结构库。
发明内容
本发明的目的是开发一种有效的不包含同构冗余的N糖库的构建方法,通过将糖结构编码为线性正则表达式,把糖结构的同构判定问题转化为了字符串的冗余判定问题,同时本发明设计了一种根据糖结构的正则表达式构建N糖库的方法。
为了解决上述技术问题,本发明目的在于提供一种基于正则表达式的N糖结构库构建方法,其中包括:
步骤1、初始获取的糖结构为五糖核心,将五糖核心中每个单糖作为一个节点,为每个该节点进行编号以明确该节点所代表的单糖类别,并根据各节点间的连接关系和该编号,计算该五糖核心中每个节点的正则表达式,并将所有该正则表达式集合,作为x糖结构字符串码,其中x为该糖结构所具有的节点数,该正则表达式采用字符串码的形式加以表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711235673.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:转速可调式模具脱模方法
- 下一篇:一种电动汽车的数据获取方法及装置