[发明专利]基于非连续上下文建模和最大熵原则的基因压缩方法有效
| 申请号: | 201310433453.9 | 申请日: | 2013-09-22 |
| 公开(公告)号: | CN103546162A | 公开(公告)日: | 2014-01-29 |
| 发明(设计)人: | 熊红凯;李平好 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | H03M7/40 | 分类号: | H03M7/40 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 连续 上下文 建模 最大 原则 基因 压缩 方法 | ||
1.一种基于非连续上下文建模和最大熵原则的基因压缩方法,其特征是,该方法包括两大阶段:
在第一阶段,对于无参考序列的压缩,通过在已压缩序列内向前搜索的方法找到基因序列内部近距离和远距离的重复,包括直接重复和互补回文,以重复发生的属性、位置和长度高效表示基因序列的重复子序列;对于有参考序列的压缩,通过在参考序列内向前向后双向搜索的方法找到目标序列与参考序列中的重复部分,并通过重复发生的位置和长度高效表示重复子序列达到压缩目的;上述两种情况下剩余的非重复序列均将送入第二阶段的以比特位为单位的统计编码器;
第二阶段,所述统计编码器由预测器和算术编码器构成,预测器对于非重复序列,采用在传统的连续型上下文模型的基础上引入非连续比特上下文组合式的建模方案,并利用基于最大熵原则产生的Logistic回归公式合并各个模型单独产生的预测概率,从而得到最终更准确的预测概率值送入算术编码器,输出码流。
2.根据权利要求1所述的基于非连续上下文建模和最大熵原则的基因压缩方法,其特征是,所述第一阶段中:将已压缩序列重复部分与非重复部分分开,对于能在基因序列内部和参考基因序列上找到重复的子序列分别采用四倍体<重复标志‘D’,重复类型‘r’,重复发生的偏移位置Offset,重复长度M>表示和三倍体<重复标志‘i’,在参考中的偏移位置Offset,重复长度M>表示,并对该四倍体表示或三倍体表示进一步压缩。
3.根据权利要求2所述的基于非连续上下文建模和最大熵原则的基因压缩方法,其特征是,所述对该四倍体表示或三倍体表示进一步压缩,具体为:对于无参考序列中的四倍体表示,用log-skewed编码方法和差分+Gamma编码方法分别对偏移位置Offset和重复长度M进一步压缩;对于有参考序列中的三倍体表示,用log-skewed编码方法和差分+Gamma编码方法分别对重复长度M和偏移位置Offset进一步压缩。
4.根据权利要求1所述的基于非连续上下文建模和最大熵原则的基因压缩方法,其特征是,所述的用在参考序列内向前向后双向搜索到的最长重复序列表示基因序列间的重复方案时,自适应地选取寻找重复的窗口大小;具体为:在已知参考序列的情况下,对目标序列进行压缩之前,首先计算两个序列的差别率,根据差别率的不同取值分配给其不同的滑动窗窗口大小,从而节省压缩中寻找重复步骤的时间,并提高方案的自适应性。
5.根据权利要求1-4任一项所述的基于非连续上下文建模和最大熵原则的基因压缩方法,其特征是,所述预测器引入非连续比特上下文组合式的建模方案,具体为:除了传统的连续上下文模型外,根据实验测试又选择了13个非连续上下文模型,即选取在位置上相互互补且对测试实验产生很好压缩效果的11个利用非连续的比特位组合作为上下文来进行预测的模型、1个距离模型和1个间接模型,以达到优化整体压缩性能的目的。
6.根据权利要求5所述的基于非连续上下文建模和最大熵原则的基因压缩方法,其特征是,所述利用基于最大熵原则产生的Logistic回归公式合并各个模型单独产生的预测概率,具体为:
①、首先根据当前需要编码的比特位yj的上下文,对于第i个模型假设有mij个0比特,nij个1比特,计算每个模型的独立预测概率Pi,并求出每个概率的伸展形式
②、基于最大熵原则得到使得熵最大的合成概率为Logistic回归模型:
③、将合成概率送入算术编码器输出;
④、根据牛顿法,以使编码消耗C=-ln(1-|E|)最小,即预测误差E=yj-P(y|t)最小为目标求出更新后的wi,为:
⑤、使用新的wi返回第①步,开始预测比特位yj+1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310433453.9/1.html,转载请声明来源钻瓜专利网。





