[发明专利]一种基于字典学习的氨基酸序列特征提取方法在审

专利信息
申请号: 202110143746.8 申请日: 2021-02-02
公开(公告)号: CN112908418A 公开(公告)日: 2021-06-04
发明(设计)人: 葛瑞泉;黄润根;王普;贾刚勇;程雨夏;徐岗 申请(专利权)人: 杭州电子科技大学
主分类号: G16B30/00 分类号: G16B30/00;G06K9/62;G16B40/00
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 杨舟涛
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 字典 学习 氨基酸 序列 特征 提取 方法
【说明书】:

发明公开了一种基于字典学习的氨基酸序列特征提取方法。本发明首先给定一种AAindex,每条氨基酸肽序列数据都可用P=R1R2......RL表示,通过给定的AAindex,可将上述序列编码成PE=E1E2......EL。其中Ei为氨基酸残基的Ri的属性值;接着,对肽序列使用n‑gram模型分解成单词并分割成不同长度的片段,之后对同一长度的片段聚类生成字典;最后将样本基于欧氏距离的词频学习字典的特征构成样本特征矩阵。本发明能够有效的对氨基酸序列进行特征提取,实现降维,得到氨基酸中潜在的规律,特征选择的结果对样本类别判定具有重要意义,有效提高样本类别判定的准确率。

技术领域

本发明属于数据挖掘技术领域,涉及一种基于字典学习的氨基酸序列特征提取方法。

背景技术

随着人类基因组计划的顺利进展,越来越多的蛋白质被测定出来,而通过实验确定其结构与功能的蛋白质则相对较少,且费时、费力、费财,实验中可能还会遇到一些目前无法解决的困难,因此探索利用理论计算方法来研究蛋白质结构和功能具有重要意义。如何从一条氨基酸序列提取它的有用信息,并用适当的数学方法来描述或表示这些信息,使之能正确反映序列与结构或功能之间的关系,对于蛋白质分类研究是至关重要的,也是决定分类质量的关键。目前的氨基酸序列的特征提取方法主要分为两类:一类为仅仅基于氨基酸组成和位置的方法;另一类为基于氨基酸物理化学性质的方法。氨基酸是组成蛋白质的基本单位,一条蛋白质包含的基本信息是20种氨基酸的种类和排列顺序,因此基于氨基酸组成和位置的特征提取算法是最简单、最直观的方法,主要有氨基酸组成(AAC)、熵密度(EDP)、n阶耦联组成(n-OCC)和完全信息集(CIS)。氨基酸的侧链决定了氨基酸的种类、20种氨基酸侧链在形状、大小、负电性、水性以及酸碱性等方面都存在差异,正是这20种氨基酸的差异,使各种不同组合的氨基酸序列形成各种不同的蛋白质结构,并适应各类环境,完成其特定的生理功能。蛋白质的生物学活性和理化性质主要决定其空间结构的完整,因此仅仅知道蛋白质的氨基酸组成和它们的排列顺序并不能完全了解蛋白质的结构,需要考虑氨基酸的性质。目前,基于氨基酸物理化学性质特征提取方法主要有自相关函数、伪氨基酸组成(PseAA)、准序列次序作用和疏水模式组成(HP)。

上述所介绍的方法会丢失氨基酸的顺序信息以及其间的相互作用或计算量非常大等局限性,对于进一步预测蛋白质结构类起到的效果并不是十分明显。

发明内容

本发明的目的是针对现有预测蛋白质结构类的需求,提出一种基于字典学习的氨基酸序列特征提取方法。该方法使用AAindex作为初始特征来分析序列,AAindex是一个包含AAindex1、AAindex2、AAindex3的数字指标数据库,它代表氨基酸和对氨基酸的不同物理化学和生物化学性质。有利于更好地发现理化性质之间的隐藏模式,从而得到潜在的规律,并可以有效的降低特征维数。

本发明的具体步骤如下:

步骤1、输入数据,其中输入数据为蛋白质序列;

步骤2、每条肽序列数据都用P=R1R2......RL表示,给定一个氨基酸指数AAindex,将上述序列编码成PE=E1E2......EL;其中Ei为氨基酸残基的Ri的属性值。

步骤3、构造字典;

在字典构造阶段,分为以下3步:

(1)、肽序列编码:利用n-gram模型将肽序列分解成单词,建立编码序列;

(2)、编码序列分割:将编码序列分成不同长度的片段,如长度为2的片段和长度为3的片段。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110143746.8/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top