[发明专利]一种启动子识别系统的构建方法和装置在审

专利信息
申请号: 201510166526.1 申请日: 2015-04-09
公开(公告)号: CN104834834A 公开(公告)日: 2015-08-12
发明(设计)人: 张莉;徐文轩;张召;王邦军;李凡长;杨季文 申请(专利权)人: 苏州大学张家港工业技术研究院
主分类号: G06F19/22 分类号: G06F19/22;G06F19/24
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 常亮
地址: 215600 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 启动子 识别 系统 构建 方法 装置
【说明书】:

技术领域

发明属于基因启动子的预测与识别技术领域,尤其涉及一种启动子识别系统的构建方法和装置。

背景技术

当前,人类基因表达调控已成为一个极具挑战性的研究方向,而启动子识别对整个基因组功能的诠释具有重要作用,因此如何又好又快地识别人类启动子,成为本领域的一个研究热点。

现有的启动子识别系统不具备基于基因结构特征识别启动子的能力,即无法利用基因的结构特征来识别启动子。譬如,梅丽等人在《Human Promoter Recognition Algorithm》中设计的基于SVM(支持向量机,Support Vector Machine)的启动子分类识别算法,共包含两级分类系统,分别基于基因的CpG岛特征及KL(Kullback–Leibler divergence,相对熵)词频统计特征来识别启动子,不具备结合基因结构特征识别启动子的能力,导致系统的识别性能较差。

发明内容

有鉴于此,本发明的目的在于提供一种启动子识别系统的构建方法和装置,旨在解决现有识别系统因不具备利用基因结构特征识别启动子的能力,而导致识别性能较差这一问题。

为此,本发明公开如下技术方案:

一种启动子识别系统的构建方法,包括:

将包含N条基因序列的数据集划分为第一数据子集和第二数据子集,所述第一数据子集具有预设属性;

分别提取所述第一数据子集及所述第二数据子集中各基因序列的P种预 设特征,相应得到P个第一训练特征子集及P个第二训练特征子集;所述预设特征包括基因刚性特征,N、P为大于1的自然数;

分别对所述P个第一训练特征子集及所述P个第二训练特征子集进行分类建模,得到P个第一子分类器模型及P个第二分类器模型,各个所述子分类器模型构成启动子识别系统的分类识别模型。

上述方法,优选的,所述预设属性为基因的CG碱基偏好。 

上述方法,优选的,所述预设特征还包括CpG岛特征及相对熵KL词频统计特征。

上述方法,优选的,所述分别提取所述第一数据子集及所述第二数据子集中各基因序列的P种预设特征,相应得到P个第一训练特征子集及P个第二训练特征子集,包括:

分别提取第一数据子集及第二数据子集中各基因序列的基因刚性特征,得到第一刚性特征子集及第二刚性特征子集;

分别提取第一数据子集及第二数据子集中各基因序列的CpG岛特征,得到第一CpG岛特征子集及第二CpG岛特征特征子集;

分别提取第一数据子集及第二数据子集中各基因序列的KL词频统计特征,得到第一KL词频统计特征子集及第二KL词频统计特征子集。

上述方法,优选的,所述分别对所述P个第一训练特征子集及所述P个第二训练特征子集进行分类建模为:

使用支持向量机SVM模型分别对所述P个第一训练特征子集及所述P个第二训练特征子集进行分类建模。

上述方法,优选的,还包括:

利用构建的所述分类识别模型对待测数据进行类别判决,以识别所述待测数据是否为启动子。

一种启动子识别系统的构建装置,包括:

划分模块,用于将包含N条基因序列的数据集划分为第一数据子集和第二数据子集,所述第一数据子集具有预设属性;

特征提取模块,用于分别提取所述第一数据子集及所述第二数据子集中各基因序列的P种预设特征,相应得到P个第一训练特征子集及P个第二训练特征子集;所述预设特征包括基因刚性特征,N、P为大于1的自然数;

建模模块,用于分别对所述P个第一训练特征子集及所述P个第二训练特征子集进行分类建模,得到P个第一子分类器模型及P个第二分类器模型,各个所述子分类器模型构成启动子识别系统的分类识别模型。

上述装置,优选的,所述特征提取模块包括:

第一特征提取单元,用于分别提取第一数据子集及第二数据子集中各基因序列的基因刚性特征,得到第一刚性特征子集及第二刚性特征子集;

第二特征提取单元,用于分别提取第一数据子集及第二数据子集中各基因序列的CpG岛特征,得到第一CpG岛特征子集及第二CpG岛特征特征子集;

第三特征提取单元,用于分别提取第一数据子集及第二数据子集中各基因序列的KL词频统计特征,得到第一KL词频统计特征子集及第二KL词频统计特征子集。

上述装置,优选的,所述建模模块为:

建模单元,用于使用支持向量机SVM模型分别对所述P个第一训练特征子集及所述P个第二训练特征子集进行分类建模。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学张家港工业技术研究院,未经苏州大学张家港工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510166526.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top