[发明专利]一种基于动态卷积网络的微生物基因序列分类模型的方法在审
申请号: | 201710609781.8 | 申请日: | 2017-07-25 |
公开(公告)号: | CN108009402A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 段大高;赵振东;韩忠明 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种基于动态卷积网络的微生物基因序列分类模型的方法:步骤一:获取已有分类结果的微生物基因序列数据;步骤二:数据预处理;步骤三:构建动态卷积网络结构框架;步骤四:把准备好的数据输入步骤三建立的动态卷积网络,用反向传播,随机梯度下降法迭代100次,训练动态卷积网络;以多分类交叉熵为代价函数,最终得到分类算法模型;步骤五:将需要分类的分词序列输入到步骤四已训练好的动态卷积网络模型,得到分类结果。本发明方法不用人工处理数据和抽取特征,模型自动抽取抽象特征完成分类任务,算法效率和准确度高,可有效应用于生物信息分析与处理。 | ||
搜索关键词: | 一种 基于 动态 卷积 网络 微生物 基因 序列 分类 模型 方法 | ||
【主权项】:
1.一种基于动态卷积网络的微生物基因序列分类模型的方法,特征在于:该方法步骤如下:步骤一:获取已有分类结果的微生物基因序列数据;步骤二:数据预处理:1)删除基因序列中非法字符;2)将不同的分类类别属性one-hot编码;3)把基因序列按8个字符切分成词序列;4)把整理好的序列文本集按对应的分类标签分成门,纲,目,科,分成四个分类级别数据;步骤三:构建动态卷积网络结构框架:1)词嵌入层,词嵌入层输入的序列分词向量化;不同的序列词语映射出不同的向量,相近的序列词在映射空间上会更加相近;在此选词向量长度为48;2)输入层,输入层接收词嵌入层输出的序列向量,然后将数据矩阵传给下一层;3)卷积层,主要是一维卷积,卷积核扫描输入序列数据矩阵进行卷积运算产生输出结果;所述的卷积层有两个,命名为第一卷积层和第二卷积层;4)动态池化层,池化层根据卷积层数,和输入序列长发动态的选择池化参数,以保留最多有效信息;动态池化层参数根据公式(1)选择: Kl 是第l层池化层参数k的选择值,Ktop ,是最顶层池化层参数,L表示网络中卷积层总层数,l代表是当前的层数,s代表序列的长度,选择bp为单位;5)折叠层,折叠层将所述的第一卷积层和第二卷积层输出矩阵中每上下两层合并,以数值相加形式进行合并;6)全连接层,全连接有1024个神经元,可以抽取出神经网络学到的深层次抽象特征;7)输出层,输出层根据具体分类类别数设置神经元个数,输出神经网络学习的分类结果;步骤四:把准备好的数据输入步骤三建立的动态卷积网络,用反向传播,随机梯度下降法迭代100次,训练动态卷积网络;以多分类交叉熵为代价函数,最终得到分类算法模型;步骤五:将需要分类的分词序列输入到步骤四已训练好的动态卷积网络模型,得到分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710609781.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种具有提醒与安全防护的扶梯
- 下一篇:一种浓海水资源化利用的方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用