[发明专利]具有局部-整体约束的无重叠近似模式匹配方法有效
申请号: | 201910530671.1 | 申请日: | 2019-06-19 |
公开(公告)号: | CN110245167B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 武优西;菅博境;刘茜;王月华;成淑慧;王阳阳;赵苏颖 | 申请(专利权)人: | 河北工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22;G06F16/903;G06F16/901 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 胡安朋 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明具有局部‑整体约束的无重叠近似模式匹配方法,涉及电数字数据处理技术领域,利用网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题,首先读入序列S、模式P、局部阈值δ和整体阈值γ,根据输入条件创建一棵网树,然后从最后一个根结点开始,判断是否存在满足局部‑整体约束的树根叶子路径,最后从叶子层开始,根据最右双亲策略回溯出一条出现,迭代此过程,直到第一个根结点。本发明克服了现有技术针对具有局部‑整体约束的无重叠近似模式匹配问题,存在很难兼顾求解的准确性、一般性和灵活性,以及在保证结果集非冗余的同时能够保留下有价值的信息的缺陷。 | ||
搜索关键词: | 具有 局部 整体 约束 重叠 近似 模式 匹配 方法 | ||
【主权项】:
1.具有局部‑整体约束的无重叠近似模式匹配方法,其特征在于:利用网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题,具体步骤如下:第一步,确定网树的层数:读入给定序列S,确定其长度为n,该序列S中的每个字符分别记作字符s1、字符s2、…、字符sn,读入给定模式P,确定其长度为m,该模式P的各个子模式分别记作子模式p1、子模式p2、…、子模式pm,这里0<m<n;根据给定模式P中的子模式数确定网树的层数,则网树共有m层,分别记作第1层、第2层、…、第m层;第二步,创建一棵网树,并计算网树中各个结点
的最小树根距离
给定局部阈值δ和整体阈值γ,这里0≤δ≤γ,并根据上述第一步中的序列S和上述第一步中的模式P创建一棵网树,在该网树的第j层中,标签为i的结点记作
与精确模式匹配不同,具有局部‑整体约束的无重叠近似模式匹配创建的网树中,每个结点
需要记录字符si与子模式pj之间的δ‑距离Dδ(si,pj),并且每个结点
需要记录其最小树根距离
来描述结点
到达树根层的能力,即结点
到达树根层的最短γ‑距离,并把结点
的最小树根距离
初始化为0;在创建网树的过程中,根据各个结点
的最小树根距离
能够预先判断并删除网树中的无效双亲关系以及无效结点;具体处理方法如下:对上述第一步中的给定序列S中的字符si进行处理,并依次计算其与上述第一步中的给定模式P中的子模式p1、子模式p2、…、子模式pm之间的δ‑距离Dδ(si,pj),其中1≤j≤m:当Dδ(si,pj)>δ,其中1≤j≤m,不需要在所创建网树的第j层创建结点
当Dδ(si,pj)≤δ,其中j=1,直接在所创建网树的树根层创建结点
结点
的最小树根距离
等于字符si与子模式p1之间的δ‑距离Dδ(si,p1),通过公式(1)计算结点
的最小树根距离![]()
公式(1)中,δ表示局部阈值,Dδ(si,p1)表示字符si与子模式p1之间的δ‑距离;当Dδ(si,pj)≤δ,其中1<j≤m,在所创建网树的第j层创建结点
并在所创建网树的第j‑1层的所有结点
中,通过以下方法,判断结点
与结点
之间能否建立双亲关系:当结点
与结点
之间满足间隙约束[minj‑1,maxj‑1],且
结点
和结点
之间能够建立双亲关系,并在结点
和结点
之间建立双亲关系;当结点
与结点
之间不满足间隙约束[minj‑1,maxj‑1],或者
结点
和结点
之间不能够建立双亲关系;依次遍历完网树第j‑1层的所有结点
确定其中能够与结点
之间建立双亲关系的结点有t个,其中t≥0,当t=0时,则删除结点
当t>0时,则把t个结点分别记作![]()
并通过公式(2)计算结点
的最小树根距离![]()
公式(2)中,t表示结点
的双亲个数,Dδ(si,pj)表示字符si与子模式pj之间的δ‑距离;对上述第一步中的给定序列S中的每个字符处理完毕,即创建完一棵网树;第三步,利用网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题:利用上述第一步和第二步构建的网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题,具体说是,网树中的结点
代表模式P的第j个子模式在序列S中的第i个位置,同样,由于网树不同层上的结点允许拥有相同的标签,但同一层不允许拥有相同的标签,这正符合无重叠条件的性质,因此,网树结构适用于求解无重叠条件下的模式匹配问题,网树中的一条树根叶子路径对应一条出现,寻找出现即在网树中寻找满足局部‑整体约束的树根叶子路径,对于利用网树结构解决(δ,γ)‑距离下的无重叠近似模式匹配问题,选用以下四种相似的寻找出现的方法中的任意一种:第一种:从树根层的最后一个结点开始,在满足局部‑整体约束的条件下,判断该根结点能否到达叶子层,当能到达时,则从能够到达的叶子层的最后一个结点开始,在满足局部‑整体约束的条件下,根据最右双亲策略,在当前根结点的子网树内向上回溯一条树根叶子路径,即找到一条出现;第二种:从树根层的第一个结点开始,在满足局部‑整体约束的条件下,判断该根结点能否到达叶子层,当能到达时,则从能够到达的叶子层的第一个结点开始,在满足局部‑整体约束的条件下,根据最左双亲策略,在当前根结点的子网树内向上回溯一条树根叶子路径,即找到一条出现;第三种:从叶子层的最后一个结点开始,在满足局部‑整体约束的条件下,判断该叶子结点能否到达树根层,当能到达时,则从能够到达的树根层的最后一个结点开始,在满足局部‑整体约束的条件下,根据最右孩子策略,在当前叶子结点的子网树内向下回溯一条树根叶子路径,即找到一条出现;第四种:从叶子层的第一个结点开始,在满足局部‑整体约束的条件下,判断该叶子结点能否到达树根层,当能到达时,则从能够到达的树根层的第一个结点开始,在满足局部‑整体约束的条件下,根据最左孩子策略,在当前叶子结点的子网树内向下回溯一条树根叶子路径,即找到一条出现;由此利用网树结构完成了(δ,γ)‑距离下的无重叠近似模式匹配;在显示器上输出上述第一步中的给定模式P在上述第一步中的给定序列S中的所有出现,即输出结果集OCC(S,P)中的所有出现,由此完成具有局部‑整体约束的无重叠近似模式匹配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910530671.1/,转载请声明来源钻瓜专利网。