[发明专利]基于自编码器与蒙特卡洛树的层次化特征系统发育模型有效
申请号: | 202110126970.6 | 申请日: | 2021-01-29 |
公开(公告)号: | CN112837739B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 冯宏伟;刘蒙;王蓓;侯刚;冯筠 | 申请(专利权)人: | 西北大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B40/00;G16B50/30 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 王孝明 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 编码器 蒙特卡洛树 层次 特征 系统发育 模型 | ||
本发明提供了一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型,该模型具体包括以下步骤:步骤一,将采集到的化石进行人工特征提取得到分类单元的特征矩阵,即得到形态学数据集;步骤二,链式方程进行多重预插补,使用缺失数据集训练自编码器,对预插补数据进行矫正;步骤三,将层次化特征导致的不可适用数据作为额外的特征进行处理,使用邻接法建立邻接树;步骤四,使用步骤三得到的邻接树对蒙特卡洛树进行初始化,然后使用步骤二得到的完整数据集,采用蒙特卡洛树搜索算法进行系统发育树构建。本发明将系统发育树构建转化为决策路径选择,能有效避免搜索陷入局部最优的问题。能有效平衡搜索的深度与广度,提高搜索速度。
技术领域
本发明属于生物信息领域,涉及系统发育学研究中的缺失插补与发育树构建,具体涉及一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型。
背景技术
系统发育学研究的是种级分类单元或更高级分类单元之间的谱系关系,从而推断与评估分类单元之间的共同祖先关系,最终寻找到符合物种进化的系统发育树。由图1看出:通过对采集到的化石进行人工特征提取得到分类单元的特征矩阵;对其中的缺失数据进行合理的插补后,对形态学数据进行系统发育推断,进而得到能够反映分类单元共同祖先关系的系统发育树。
相较于研究DNA变异的分子系统发育学,形态学系统发育由于形态特征提取的局限性,发展较为缓慢,但仍是系统发育推断极为重要的技术。在早期古生物的系统发育分析研究中,只有在极为苛刻保存条件下留存的化石才可能提取到DNA序列,形态学系统发育方法就几乎成为唯一可行的技术。由于年代久远、保存环境变迁以及观察手段限制等原因,化石的形态学记录中存在大量的数据缺失和不可适用情况(注:当分类单元并不存在某个特征时,该分类在该类特征的子特征下就表现为不可适用,例如,海星没有毛发,海星在毛发颜色特征下就表现为不可适用),不可适用数据出现的原因,在于特征之间存在层次化关系,见图2。现有的方法多是基于分子系统发育学的,不能很好地处理缺失和不可适用问题,因此难以建立稳定而准确的形态学系统发育树。
常用的缺失插补方法为随机插补或默认值插补,常用的系统发育树构建方法包括基于距离的方法和基于最优原则的方法,前者有邻接法,UPGMA;后者主要包括最大简约法、最大似然法,其过程中会使用到最优化搜索,最优化搜索方式有棘轮法,树漂移法等。现有的主流方法对缺失和不可适用的处理都相对简单,是由于在基因系统发育分析中这两者的占比较少,不会对最终结果产生过多的影响,但在古生物数据集中仍使用现有的处理方法是过于粗糙的,将导致系统发育树构建不稳定。
发明内容
针对现有技术存在的不足,本发明的目的在于,提供一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型,解决现有技术中由于不能合适得处理缺失数据和层次化特征导致的系统发育树不稳定的技术问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
一种基于自编码器与蒙特卡洛树的层次化特征系统发育模型,该模型具体包括以下步骤:
步骤一,将采集到的化石进行人工特征提取得到分类单元的特征矩阵,即得到形态学数据集;
所述的特征矩阵为D{X1,…,Xn},其中:
Xi(i∈[1,n])为分类单元,表示第i个分类单元的全部特征,n为分类单元个数;
分类单元Xi的特征分布为Xi(xi1,xi2,…,xim),m为特征个数;
步骤二,链式方程进行多重预插补,使用缺失数据集训练自编码器,对预插补数据进行矫正;
步骤2.1,链式方程进行多重预插补:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110126970.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效油水分离滤膜及其制备方法
- 下一篇:一种用于塔吊的智能控制方法及系统