[发明专利]一种目录数据比对方法有效
| 申请号: | 202111162733.1 | 申请日: | 2021-09-30 |
| 公开(公告)号: | CN113792188B | 公开(公告)日: | 2023-09-12 |
| 发明(设计)人: | 蒋国权;周泽云;严浩;袁震;陈端兵;曹建军;刘姗姗;汪挺;丁鲲;翁年凤 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F40/194;G06F40/279 |
| 代理公司: | 江苏瑞途律师事务所 32346 | 代理人: | 韦超峰;白晓宇 |
| 地址: | 210007 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 目录 数据 方法 | ||
1.一种目录数据比对方法,其特征在于,包括:
S100:根据两个目录条目的层次码建立目录树,所述目录树包括基准目录树和比对目录树,所述目录树的每个节点为目录的一个条目;
S200:比对条目节点类型相同的节点,文本字符串完全相同的判断为完全匹配节点;
S300:对目录树中已匹配条目周边的节点,根据字符匹配相似度和邻域结构信息进行匹配,通过设置不同的置信度,循环迭代处理剩余节点,完成所有目录条目的匹配;
所述步骤S100包括:
为各条目赋予一个能代表层次结构的层次码,其中,编码最短的条目为最上层,下层的层次码包含上层的层次码,下层条目需要根据最长字符匹配来找到上层条目;
所述步骤S200包括:
S210:选定基准目录树中的基准节点,根据基准节点类型,找到比对目录树中的相同类型的比对节点;
S220:如果基准节点和比对节点文本字符串相同,则判断两个节点描述的是同一实体;
S230:重复步骤S210和步骤S220,直到两个目录树中的其中一个树的每一个节点都进行一次匹配处理操作;
所述步骤S220中,根据第一置信度公式计算节点匹配的置信度所述第一置信度公式为:
其中,i、j为基准节点和比对节点在两个目录树中的编号,Si、Sj分别表示基准节点和比对节点所描述实体的文本字符串;
步骤S300包括:
S310:设置置信度阈值;
S320:对于目录树中每个未匹配的节点,统计其周边已经完全匹配的节点数量;
S330:从基准目录树的未匹配的节点中,选出周边节点匹配最多的节点;
S340:对选出的基准节点和待匹配节点,若其孩子节点中有部分节点已匹配,计算两个节点的匹配的置信度,根据置信度和置信度阈值判断两个节点是否为同一实体;
S350:对选出的基准节点,若其父节点已匹配,孩子节点未匹配或无孩子节点,选择其中与基准节点分类相同的节点作为待比对节点,若待比对的节点有多个,则基准节点与每一个待比对节点,计算两个节点匹配的第二置信度,最后选择与基准节点匹配置信度最高的比对节点作为候选节点,根据第二置信度和置信度阈值判断两个节点是否为同一实体;
步骤S360:重复步骤S320~S350,直到所有节点都经过一次处理;
步骤S370:若基准目录或对比目录中,有一个目录已没有可用于对比的条目,转到步骤S380;否则,降低置信度阈值,若此时的置信度阈值大于预先设定的最小阈值,转到步骤S320继续比对,否则转到步骤S380;
步骤S380:输出最后匹配的结果,同时输出没有匹配上的条目;
步骤S340中,根据第二置信度公式计算置信度,所述第二置信度公式为:
δij=max(Pij,IOUij,Pij+IOUij-γ)
其中,Wi、Wj分别表示基准节点和比对节点的分词集合;card(*)为集合中元素个数;pi1,pj1分别为基准节点和比对节点的一阶邻居节点集合,为一阶邻居节点中节点置信度之和;pi2,pj2分别为基准节点和比对节点的二阶邻居节点的集合;为二阶邻居节点中节点置信度之和;P1ij为两个节点一阶邻居节点结构相似度,P2ij为两个节点的二阶邻居节点结构相似度;α、β、γ为匹配模型参数,该参数满足α>β>0,1>γ>0,Pij为两个节点结构相似度,δij为两个节点是同一实体的置信度。
2.根据权利要求1所述的目录数据比对方法,其特征在于,所述步骤S340和步骤S350中,根据置信度和置信度阈值判断两个节点是否为同一实体包括:
若第二置信度大于置信度阈值,则判断两个节点为同一实体;反之,则不是同一实体。
3.根据权利要求1或2所述的目录数据比对方法,其特征在于,所述步骤S370中,降低置信度阈值的方法为:
降低后的置信度阈值为降低前的置信度阈值的k倍,其中0k1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111162733.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





