[发明专利]一种基于XML文档的元数据模式匹配方法有效

申请号：	201210535449.9	申请日：	2012-12-12
公开（公告）号：	CN102982168A	公开（公告）日：	2013-03-20
发明（设计）人：	朱晓燕;何金陵;潘留兴;赵鑫	申请（专利权）人：	江苏省电力公司信息通信分公司;江苏电力信息技术有限公司;江苏省电力公司;国家电网公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林;许婉静
地址：	210008 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于XML文档的元数据模式匹配方法，通过计算两个元数据的语义相似度、属性相似度、实例相似度、结构相似度和关系相似度，根据具体的XML文档来设置权重，最后计算综合相似度，因此在元数据之间的模式匹配时，可使计算结果更精确。
搜索关键词：	一种基于 xml 文档数据模式匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于XML文档的元数据模式匹配方法，其特征在于，包括以下步骤：1）计算两个元数据的语义相似度：元数据a和元数据b之间的相似度通过字符串的同义词匹配来完成，计算模型如下所示：lex_sim(m1,m2)=Σi=1sΣj=1tsim(m1i,m2j)m*n]]>式(1)其中其中m_1i是元数据m₁的第i个关键词，m_2j是元数据m₂的第j个关键词，s表示元数据m₁的关键词个数，t表示元数据m₂的关键词个数，sim(m_1i,m_2j)表示关键词m_1i和m_2j的相似度，如果m_1i和m_2j相同或为同义词，则sim(m_1i,m_2j)=1，否则为0；lex_sim(m₁,m₂)的取值范围为[0,1]，当元数据m₁中的所有关键词与元数据m₂所有关键词相同或为同义词时，lex_sim(m₁,m₂)=1，而全部不相同或都不为同义词时lex_sim(m₁,m₂)=0；2）计算两个元数据的属性相似度：使用公式(2)计算出两个元数据的属性相似度，计算模型如下所示：attr_sim(m1,m2)=|m2∩m2||m1,m2|+D(m1,m2)|m1∩⫬m2|+(1-D(m1,m2))|⫬m1∩m2|]]>式(2)其中|m₁∩m₂|表示元数据m₁和m₂的属性集合的交集的个数，表示属于元数据m₁但不属于m₂的属性集合的个数，而表示属于元数据m₂但不属于m₁的属性集合的个数，而D(m₁,m₂)的计算公式如公式(3)所示，D(m1,m2)=dep(m1)dep(m1)+dep(m2)dep(m1)≤dep(m2)1-dep(m1)dep(m1)+dep(m2)dep(m1)≥dep(m2)---(3)]]>其中dep(m₁)表示元数据m₁在XML文档中所处的层(即深度)，同样dep(m₂)表示元数据m₂在XML文档中所处的深度；3）计算两个元数据的实例相似度：两个元数据的实例相似度的公式用公式(4)所示，inst_sim(m1,m2)=|instSet(m1)∩instSet(m2)||instSet(m1)∪instSet(m2)|---(4)]]>|instSet(m₁)∩instSet(m₂)|表示元数据m₁和元数据m₂实例的交集个数，|instSet(m₁)∪instSet(m₂)|表示元数据m₁和元数据m₂实例的并集个数；4）计算两个元数据的结构相似度：计算公式如式(5)所示，stru_sim(m₁,m₂)＝λ*Psim(m₁,m₂)+(1-λ)Ssim(m₁，m₂) (5)其中0≤λ≤1，Psim(m₁,m₂)表示元数据m₁的父元数据与m₂的父元数据之间的相似度，而Ssim(m₁,m₂)表示元数据m₁的子元数据与m₂的子元数据之间的相似度，Psim(m₁,m₂)和Ssim(m₁，m₂)计算公式分别如式(6)、(7)所示，Psim(m₁,m₂)＝attr_sim(p₁,p₂) (6)Ssim(m1,m2)=Σi=1SΣj=1Tattr_sim(m1Si,m2Sj)---(7)]]>其中p₁和p₂分别表示元数据m₁和m₂的父元数据，与分别表示元数据m₁和元数据m₂的第S_i个与第S_j个子元数据，S、T分别表示元数据m₁和m₂的子元数据的个数，attr_sim的计算如式(2)所示；5）计算两个元数据的关系相似度：关系由于包含多个数据，而每个数据所处的地位不同，假设一个元数据的关系包括以下几种类型：名称、类型、时间和空间，则根据数据的权重计算公式可表示为：rel_sim(m₁,m₂)＝a*name_sim(m₁,m₂)+b*type_sim(m₁,m₂) (8)+c*time_sim(m₁,m₂)+d*space_sim(m₁,m₂)其中参数a+b+c+d＝1，name_sim(m₁,m₂)、type_sim(m₁，m₂)、time_sim(m₁，m₂)、space_sim(m₁,m₂)分别表示元数据m₁和m₂的名称、类型、时间和空间的关系相似度，根据关系数据的不同，采用不同的方式计算各关系数据的相似度，如名称和类型为字符串，使用字符串相似度计算关系数据的类型的相似度；如果元数据的关系是时间类型的，根据时间关联来计算相似度；如果元数据的关系是空间类型，采用皮尔逊相似度来计算两个关系数据的相似度；6）基于步骤1）到步骤5）的相似度计算，得出两个元数据的综合相似度计算公式，如下所示：sum_sim(m₁,m₂)＝α*lex_sim(m₁,m₂)+β*attr_sim(m₁,m₂)+γ*inst_sim(m₁,m₂) (9)+η*stru_sim(m₁,m₂)+δ*rel_sim(m₁,m₂)其中参数α+β+γ+η+δ=1，参数的具体值根据具体环境由用户来定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏省电力公司信息通信分公司;江苏电力信息技术有限公司;江苏省电力公司;国家电网公司，未经江苏省电力公司信息通信分公司;江苏电力信息技术有限公司;江苏省电力公司;国家电网公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210535449.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于XML文档的元数据模式匹配方法有效

专利文献下载