[发明专利]具有局部-整体约束的无重叠近似模式匹配方法有效

专利信息
申请号: 201910530671.1 申请日: 2019-06-19
公开(公告)号: CN110245167B 公开(公告)日: 2021-08-03
发明(设计)人: 武优西;菅博境;刘茜;王月华;成淑慧;王阳阳;赵苏颖 申请(专利权)人: 河北工业大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/22;G06F16/903;G06F16/901
代理公司: 天津翰林知识产权代理事务所(普通合伙) 12210 代理人: 胡安朋
地址: 300130 天津市红桥区*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明具有局部‑整体约束的无重叠近似模式匹配方法,涉及电数字数据处理技术领域,利用网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题,首先读入序列S、模式P、局部阈值δ和整体阈值γ,根据输入条件创建一棵网树,然后从最后一个根结点开始,判断是否存在满足局部‑整体约束的树根叶子路径,最后从叶子层开始,根据最右双亲策略回溯出一条出现,迭代此过程,直到第一个根结点。本发明克服了现有技术针对具有局部‑整体约束的无重叠近似模式匹配问题,存在很难兼顾求解的准确性、一般性和灵活性,以及在保证结果集非冗余的同时能够保留下有价值的信息的缺陷。
搜索关键词: 具有 局部 整体 约束 重叠 近似 模式 匹配 方法
【主权项】:
1.具有局部‑整体约束的无重叠近似模式匹配方法,其特征在于:利用网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题,具体步骤如下:第一步,确定网树的层数:读入给定序列S,确定其长度为n,该序列S中的每个字符分别记作字符s1、字符s2、…、字符sn,读入给定模式P,确定其长度为m,该模式P的各个子模式分别记作子模式p1、子模式p2、…、子模式pm,这里0<m<n;根据给定模式P中的子模式数确定网树的层数,则网树共有m层,分别记作第1层、第2层、…、第m层;第二步,创建一棵网树,并计算网树中各个结点的最小树根距离给定局部阈值δ和整体阈值γ,这里0≤δ≤γ,并根据上述第一步中的序列S和上述第一步中的模式P创建一棵网树,在该网树的第j层中,标签为i的结点记作与精确模式匹配不同,具有局部‑整体约束的无重叠近似模式匹配创建的网树中,每个结点需要记录字符si与子模式pj之间的δ‑距离Dδ(si,pj),并且每个结点需要记录其最小树根距离来描述结点到达树根层的能力,即结点到达树根层的最短γ‑距离,并把结点的最小树根距离初始化为0;在创建网树的过程中,根据各个结点的最小树根距离能够预先判断并删除网树中的无效双亲关系以及无效结点;具体处理方法如下:对上述第一步中的给定序列S中的字符si进行处理,并依次计算其与上述第一步中的给定模式P中的子模式p1、子模式p2、…、子模式pm之间的δ‑距离Dδ(si,pj),其中1≤j≤m:当Dδ(si,pj)>δ,其中1≤j≤m,不需要在所创建网树的第j层创建结点当Dδ(si,pj)≤δ,其中j=1,直接在所创建网树的树根层创建结点结点的最小树根距离等于字符si与子模式p1之间的δ‑距离Dδ(si,p1),通过公式(1)计算结点的最小树根距离公式(1)中,δ表示局部阈值,Dδ(si,p1)表示字符si与子模式p1之间的δ‑距离;当Dδ(si,pj)≤δ,其中1<j≤m,在所创建网树的第j层创建结点并在所创建网树的第j‑1层的所有结点中,通过以下方法,判断结点与结点之间能否建立双亲关系:当结点与结点之间满足间隙约束[minj‑1,maxj‑1],且结点和结点之间能够建立双亲关系,并在结点和结点之间建立双亲关系;当结点与结点之间不满足间隙约束[minj‑1,maxj‑1],或者结点和结点之间不能够建立双亲关系;依次遍历完网树第j‑1层的所有结点确定其中能够与结点之间建立双亲关系的结点有t个,其中t≥0,当t=0时,则删除结点当t>0时,则把t个结点分别记作并通过公式(2)计算结点的最小树根距离公式(2)中,t表示结点的双亲个数,Dδ(si,pj)表示字符si与子模式pj之间的δ‑距离;对上述第一步中的给定序列S中的每个字符处理完毕,即创建完一棵网树;第三步,利用网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题:利用上述第一步和第二步构建的网树结构来解决(δ,γ)‑距离下的无重叠近似模式匹配问题,具体说是,网树中的结点代表模式P的第j个子模式在序列S中的第i个位置,同样,由于网树不同层上的结点允许拥有相同的标签,但同一层不允许拥有相同的标签,这正符合无重叠条件的性质,因此,网树结构适用于求解无重叠条件下的模式匹配问题,网树中的一条树根叶子路径对应一条出现,寻找出现即在网树中寻找满足局部‑整体约束的树根叶子路径,对于利用网树结构解决(δ,γ)‑距离下的无重叠近似模式匹配问题,选用以下四种相似的寻找出现的方法中的任意一种:第一种:从树根层的最后一个结点开始,在满足局部‑整体约束的条件下,判断该根结点能否到达叶子层,当能到达时,则从能够到达的叶子层的最后一个结点开始,在满足局部‑整体约束的条件下,根据最右双亲策略,在当前根结点的子网树内向上回溯一条树根叶子路径,即找到一条出现;第二种:从树根层的第一个结点开始,在满足局部‑整体约束的条件下,判断该根结点能否到达叶子层,当能到达时,则从能够到达的叶子层的第一个结点开始,在满足局部‑整体约束的条件下,根据最左双亲策略,在当前根结点的子网树内向上回溯一条树根叶子路径,即找到一条出现;第三种:从叶子层的最后一个结点开始,在满足局部‑整体约束的条件下,判断该叶子结点能否到达树根层,当能到达时,则从能够到达的树根层的最后一个结点开始,在满足局部‑整体约束的条件下,根据最右孩子策略,在当前叶子结点的子网树内向下回溯一条树根叶子路径,即找到一条出现;第四种:从叶子层的第一个结点开始,在满足局部‑整体约束的条件下,判断该叶子结点能否到达树根层,当能到达时,则从能够到达的树根层的第一个结点开始,在满足局部‑整体约束的条件下,根据最左孩子策略,在当前叶子结点的子网树内向下回溯一条树根叶子路径,即找到一条出现;由此利用网树结构完成了(δ,γ)‑距离下的无重叠近似模式匹配;在显示器上输出上述第一步中的给定模式P在上述第一步中的给定序列S中的所有出现,即输出结果集OCC(S,P)中的所有出现,由此完成具有局部‑整体约束的无重叠近似模式匹配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910530671.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top