[发明专利]一种实体对象的动态多属性匹配方法有效
| 申请号: | 202110475662.4 | 申请日: | 2021-04-29 | 
| 公开(公告)号: | CN113297213B | 公开(公告)日: | 2023-09-12 | 
| 发明(设计)人: | 杨雄军;田群;宁希;吴元立;崔子腾;戴永恒 | 申请(专利权)人: | 军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司 | 
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06F18/22;G06F18/214 | 
| 代理公司: | 北京众元弘策知识产权代理事务所(普通合伙) 11462 | 代理人: | 宋磊 | 
| 地址: | 100141 *** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 实体 对象 动态 属性 匹配 方法 | ||
1.一种实体对象的动态多属性匹配方法,其特征在于包括步骤:
S1,对第一实体对象数据集进行归一化处理;
该步骤中,针对第一实体对象数据集,根据实体属性的类型进行归一化处理,所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型,所述归一化处理的规则具体是:
(1)如果实体属性的类型是枚举类型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理;
(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据,那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值和缺失值补全处理;
(3)对实体对象数据集中的实体属性打上标记,根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数,实体对象数据集中的实体属性包括姓名、年龄、籍贯、学校、专业和距离,其中,表示实体对象a与实体对象b在第k个实体属性上的相似度;所述打上标记的方式是给实体属性的名称加上前缀或者后缀;
实体属性为姓名,给其名称“姓名”加上前缀或后缀“name”,根据前缀或后缀“name”查询找到的相似度计算函数为余弦相似度函数;实体属性为年龄,给其名称“年龄”加上前缀或后缀“age”,通过前缀或后缀“age”查询找到的相似度计算函数为欧几里得距离函数;实体属性为籍贯,给其名称“籍贯”加上前缀或后缀“native”,通过前缀或后缀“native”查询找到的相似度计算函数为曼哈顿距离函数;实体属性为学校,给其名称“学校”加上前缀或后缀“school”,通过前缀或后缀“school”查询找到的相似度计算函数为海明距离函数;实体属性为专业,给其名称“专业”加上前缀或后缀“major”,通过前缀或后缀“major”查询找到的相似度计算函数为海明距离函数;实体属性为距离,给其名称“距离”加上前缀或后缀“distance”,通过前缀或后缀“distance”查询找到的相似度计算函数为曼哈顿距离函数;
S2,计算第一实体对象数据集中每个实体属性的信息熵,包括:
S2.1,估计第一实体对象数据集中实体属性指标的发生概率,其中,所述实体属性指标是实体属性的取值或取值区间,若在第一实体对象数据集中,实体属性指标为离散型变量时,第j个实体属性的第i个指标的发生概率是相应取值的发生概率;若在第一实体对象数据集中,实体属性为连续型变量时,将连续性变量离散化为多个取值区间,用相应的概率密度函数计算该取值区间的发生概率,第j个实体属性的第i个指标的发生概率是相应取值区间的发生概率;
S2.2计算第一实体对象数据集每个实体属性的信息熵,第一实体对象数据集中第j个实体属性的信息熵计算公式为
其中,为第一实体对象数据集第j个实体属性的实体属性指标个数;
S3,选择第一实体对象数据集进行实体对象匹配所需的实体属性和实体属性组合;
S3.1,若某个实体属性中的每个指标能够作为键值区分各个实体,即每条记录都不重复,,则使用该实体属性直接进行匹配,那么将该实体属性作为只有一个实体属性的备选实体属性组合方案加入备选实体属性方案库;
S3.2,若实体属性的相对信息熵,则选取多个实体属性进行组合,将实体属性组合的每条实体信息作为离散信息,即将实体属性组合的指标作为离散信息,第j个实体属性组合的第i个指标的发生概率是相应地在第一实体对象数据集中实体属性组合取值和/或取值范围的发生概率,第一实体对象数据集中第j个实体属性组合的信息熵计算公式为
其中,为第一实体对象数据集第j个实体属性组合的实体属性指标个数;
遍历第一实体对象数据集中的实体属性组合进行计算和删选,当实体属性组合中的每条记录都是唯一记录,即时,将该实体属性组合作为备选实体属性组合方案加入备选实体属性方案库;
S3.3,按照实体属性数量的多少对备选实体属性方案库中备选实体属性组合方案进行排序,备选实体属性组合方案按照实体属性从少到多的顺序优先级逐渐降低;
S4,针对第一实体对象数据集每个备选实体属性组合方案,计算其中的每个属性的权重值,权重值,其中,和分别为备选实体属性组合方案中第k个和第j个实体属性的信息熵,表示备选实体属性组合中实体属性的数量,当时,;
S5,为提高数据遍历效率,对第一实体对象数据集进行分区索引,分区索引方法依据备选实体属性组合方案进行选择,设置阈值τ,只针对备选实体组合方案中的实体属性数量最少的前τ种实体属性组合方案进行分区索引;分区索引的步骤如下:
S5.1若被索引的备选实体属性组合方案的实体属性数量等于1,直接采用Hash索引方法进行分区索引;
S5.2若被索引的备选实体属性组合方案中的实体属性数量大于1,则
(a)当被索引的备选实体属性组合方案中的实体属性全是整型或浮点型时,采用K-Mean聚类索引方法进行分区索引;
(b)当被索引的备选实体属性组合方案中的实体属性全部为字符串类型时,采用分区倒排索引方法进行分区索引;
(c)当被索引的备选实体属性组合方案中的实体属性中有枚举型、日期型或者布尔型时,采用列表分区索引法,利用实体属性自身的离散信息进行分区索引;
(d)除a、b、c列举的情况外,对备选实体数据组合方案采用Hash索引方法进行分区索引;
每个备选实体属性组合方案进行分区索引后,实体对象数据集将被分成对多个子集,每个子集的规模相等,记采用某个备案属性组合方案时实体对象数据集
S6,遍历第一实体对象数据集的实体属性数量大于1的备选实体属性组合方案,采用基于三角不等式加速方法分别对与备选实体属性组合方案对应的分区索引结果进行优化;每个实体属性组合方案对应的分区索引优化的步骤包括:
S6.1,对依据备选实体属性组合方案分区索引后得到的实体对象数据集子集,,采用该备选实体属性组合方案中的实体属性,计算中每个实体对象与其最相似的实体对象距离,用表示待匹配实体对象数据集子集中实体对象的最相似的实体对象为之间的最短距离,那么
,
其中,,实体属性的相似性计算函数由所述步骤S1对实体属性打的标记查询得到,权重由步骤S4确定;
S6.2保存第一实体对象数据集每个实体对象的距离,表示了第一实体对象数据集的子集中实体对象的最相似的实体对象为;
S7,遍历第二实体对象数据集中的每个实体对象,与第一实体对象数据集进行相似度匹配,若匹配到第一实体对象数据集某个子集中实体对象,则匹配成功,否则为匹配失败,实体对象的匹配过程如下:
S7.1,选取第二实体对象数据集中的实体对象;
S7.2,选择匹配用实体属性组合方案的步骤,在该步骤中,从所述备选实体属性方案库的前τ种备选实体属性组合方案中,先选择与实体对象的实体属性类型一致且优先级最高的实体属性组合方案;然后判断,采用该实体属性组合方案,实体对象的实体属性的取值是否出现无效值或者空值,如果为否,则选定该实体属性组合方案进行步骤S7.2,如是,则从备选实体属性方案库的前τ种备选实体属性组合方案中,按优先级顺序选择与实体对象的实体属性类型一致的、下一级备选实体属性组合方案,再次判断的实体属性的取值是否出现无效值或者空值,如是,则选定实体属性组合方案后进行步骤S7.2,如否,进行下一轮备选实体属性组合方案的选择;若从备选实体属性方案库的前τ种备选实体属性组合方案中没有选定的实体属性组合方案,停止该实体对象的匹配;
S7.3,选定实体属性组合方案后,若实体属性组合中实体属性数量等于1,则直接通过该实体属性作为实体对象的键值完成匹配;否则进入步骤S7.4;
S7.4,遍历与选定实体属性组合方案对应的实体对象数据集的每个子集,计算实体对象与分区索引后的实体对象数据集子集中实体对象的距离并进行比较,距离采用步骤S6.1中相同计算公式,如果,则将相应的作为实体对象的匹配实体对象,,停止匹配;否则继续遍历进行匹配;
S7.6,如果遍历后无匹配选项,选择与最小值对应的作为实体对象的匹配实体对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司,未经军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110475662.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种紧缩场测量系统
 - 下一篇:一种基于音圈元件的排气装置及方法
 





