[发明专利]用于选择用于建模上位性效应的标记的信息处理方法和系统有效
| 申请号: | 201410025013.4 | 申请日: | 2014-01-20 |
| 公开(公告)号: | CN103942467B | 公开(公告)日: | 2018-05-25 |
| 发明(设计)人: | D·霍斯;何丹;L·P·帕里达 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F19/18 | 分类号: | G06F19/18 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张亚非;于静 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基因标记 集合 表型 建模 信息处理 特征集 处理器 | ||
各个实施例选择用于建模上位性效应的标记。在一个实施例中,处理器接收基因标记集合和表型。针对基因标记集合中的每个来确定关于表型的相关性评分。基于具有最高相关性评分的基因标记的相关性评分来设置阈值。针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分。基于该至少一个交互的相关性评分满足阈值,该至少一个交互被添加到最高k特征集。
技术领域
本发明一般涉及计算生物学领域,且更具体地,涉及选择用于建模用于表型预测的基因上位性(epistasis)的特征。
背景技术
特征选择方法对于分类和回归问题是关键的。例如,在大型学习应用中,特别是对于诸如基因表达和表型数据等生物数据(其中变量的数量远超过样本数量),这是常见的。“维数灾难”(curse of dimensionality)问题不仅影响学习算法的计算效率,而且导致这些算法的低性能。为解决这个问题,可使用各种特征选择方法,其中,选择重要特征的子集,并且基于这些特征来训练学习算法。
发明内容
在一个实施例中,公开了一种用于选择用于建模上位性效应的标记(marker)的信息处理方法。计算机实施方法包括由处理器接收一组基因标记和表型。针对表型,确定用于该组基因标记的每个的相关性评分。基于该组基因标记中具有最高相关性评分的基因标记的相关性评分设置阈值。针对该组基因标记中的至少一个基因标记,确定用于该至少一个基因标记和该组基因标记中的至少一个其他基因标记之间的至少一次交互的相关性评分。基于该至少一次交互的相关性评分满足阈值,该至少一次交互被添加到最高k(top-k)特征集。最高k特征集中的每个特征是各包括最高k相关性评分的基因标记和交互中的一个。选择最高k特征集的子集以用于建模对物理特性的上位性效应。
在另一个实施例中,公开了一种用于选择用于建模上位性效应的标记的信息处理系统。信息处理系统包括:被配置为由处理器接收一组基因标记和表型的模块;被配置为为该组基因标记中的每个确定针对表型的相关性评分的模块;被配置为基于该组基因标记中具有最高相关性评分的基因标记的相关性评分设置阈值的模块;被配置为为该组基因标记中的至少一个基因标记确定用于该至少一个基因标记和该组基因标记中的至少一个其他基因标记之间的至少一次交互的相关性评分的模块;以及被配置为基于该至少一次交互的相关性评分满足阈值,添加该至少一次交互到最高k特征集的模块,其中最高k特征集中的每个特征是各包括最高k相关性评分的基因标记和交互中的一个。
附图说明
在全部附图中类似的参考标号指示相同或功能类似的元件,且其与以下的详细描述结合并形成说明书的一部分,用于进一步描述各种实施例并解释根据本发明的各种原理和优势,在附图中:
图1是示出根据本发明的一个实施例的操作环境的一个例子的框图;且
图2是示出根据本发明的一个实施例的用于选择用于建模上位性效应的标记的一个例子的操作性流程图。
具体实施方式
图1示出了根据本发明的一个实施例的一个操作环境100的概图。特别地,图1示出了可被用在本发明的实施例中的信息处理系统102。图1示出的信息处理系统102仅是合适的系统一个例子,且不旨在限定以上描述的本发明的实施例的使用范围或功能。图1的信息处理系统102能够实施和/或执行上述任何功能。任何被合适配置的处理系统可被用作本发明实施例中的信息处理系统102。
如图1所示,信息处理系统102是通用计算设备的形式。信息处理系统102的组件可包括但不限于一个或多个处理器或处理单元104、系统存储器106和总线108,总线108将包括系统存储器106的各种系统组件耦合到处理器104。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410025013.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





