[发明专利]一种用于分析蛋白质序列的性质的方法和装置有效
申请号: | 201410123836.0 | 申请日: | 2014-03-28 |
公开(公告)号: | CN104951667B | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 丁建栋;张亚楠;严骏驰;黄振;张超 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F19/16 | 分类号: | G06F19/16 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅,李峥宇 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 分析 蛋白质 序列 性质 方法 装置 | ||
技术领域
本发明的各实施方式涉及数据分析,具体地,涉及用于分析蛋白质序列(protein sequence)性质(property)的方法和装置。
背景技术
随着人类社会的发展,人类在生物学方面的研究已经越来越深入。例如,人类对于蛋白质的研究已经深入到了蛋白质序列的层次,例如,目前已经可以测定蛋白质序列、蛋白质序列的结构,并且目前已经可以通过试验等技术手段,来分析蛋白质序列的性质。
蛋白质序列可以具有多个方面的性质,例如,物理性质、化学性质和病理性质等等。通常而言,需要设计不同的试验来确定上述诸多方面的性质。然而,试验过程费时费力,并且在很大程度上依赖于试验人员的人工操作,因而需要大量的人力、物力以及时间开销。另外,当需要获得多个蛋白质序列的多个方面的性质时,需要进行的试验的数量将成倍地增加。因而,如何以较低的人力、物力和时间成本来获得蛋白质序列的各个方面的性质,成为目前的一个研究热点。
发明内容
因而,期望能够开发一种准确、高效地分析蛋白质序列的各个方面的性质的技术方案,期望该技术方案可以基于参考数据库中的参考蛋白质序列的结构和性质,在无需进行人工试验的情况下,获得未知的蛋白质序列的诸如物理性质、化学性质、病理性质等方面的性质。进一步,还期望可以在无需人工试验的情况下,不断地丰富参考数据库中的参考蛋白质序列的样本。
根据本发明的一个方面,提供了一种用于分析蛋白质序列的性质的方法,包括:响应于接收到蛋白质序列,从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列;通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列,分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量;利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器;以及由分类器来基于特征向量,分析蛋白质序列的性质。
根据本发明的一个方面,响应于接收到蛋白质序列,从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列包括:从参考数据库中查找与蛋白质序列的文本内容相近似的至少一个参考蛋白质序列。
根据本发明的一个方面,通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列,分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量包括:将任意两个序列进行比较以构造差异矩阵,其中差异矩阵中的每个元素是描述任意两个序列之间的差异的集合;基于差异矩阵中的多个列获取特征向量和至少一个参考向量。
根据本发明的一个方面,提供了一种用于分析蛋白质序列的性质的装置,包括:查找模块,配置用于响应于接收到蛋白质序列,从参考数据库中查找与蛋白质序列相匹配的至少一个参考蛋白质序列;映射模块,配置用于通过比较蛋白质序列和至少一个参考蛋白质序列构成的集合中的任意两个序列,分别将蛋白质序列和至少一个参考蛋白质序列映射至特征向量和至少一个参考向量;训练模块,配置用于利用至少一个参考向量以及至少一个参考蛋白质序列的性质来训练分类器;以及分析模块,配置用于由分类器来基于特征向量,分析蛋白质序列的性质。
根据本发明的一个方面,查找模块包括:相似性查找模块,配置用于从参考数据库中查找与蛋白质序列的文本内容相近似的至少一个参考蛋白质序列。
根据本发明的一个方面,映射模块包括:构造模块,配置用于将任意两个序列进行比较以构造差异矩阵,其中差异矩阵中的每个元素是描述任意两个序列之间的差异的集合;获取模块,配置用于基于差异矩阵中的多个列获取特征向量和至少一个参考向量。
采用本发明所述的方法和装置,可以在无需人工试验的情况下,以更为快速、准确的方式分析蛋白质序列的多个方面的性质,并且还可以不断地丰富参考数据库中的内容,以便为将来的分析提供基础。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示意性示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图;
图2示意性示出了蛋白质序列与蛋白质序列的性质之间的关系的示意图;
图3示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的方法的架构图;
图4示意性示出了根据本发明一个实施方式的用于分析蛋白质序列的性质的方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410123836.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用