[发明专利]基于用户定制的本体实例匹配系统及方法在审
| 申请号: | 201410319194.1 | 申请日: | 2014-07-04 |
| 公开(公告)号: | CN104133673A | 公开(公告)日: | 2014-11-05 |
| 发明(设计)人: | 邵超;胡琳梅;李涓子 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F9/44 | 分类号: | G06F9/44 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 用户 定制 本体 实例 匹配 系统 方法 | ||
技术领域
本发明涉及语义万维网技术领域,尤其涉及一种基于用户定制的本体实例匹配系统及方法。
背景技术
语义Web由万维网的创始人Tim Berners-Lee提出,是探索新一代互联网发展的重要技术。目前语义Web技术已经得到了广泛的发展,并涌现出大量的实际应用,如LinkedData、语义维基等。伴随着语义网的发展,越来越多的数据采用本体的方式来描述。然而不同的本体之间的异构造成数据交换和语义互操作的新的障碍。本体的异构分为两个层面,模式层异构和实例层的异构。由于现在大量大规模本体知识库的公开,每个知识库的实例个数较大,不可能和模式层一样能够进行人工对齐,所以自动对齐本体知识库的实例层的技术成为了目前语义网技术的一大热点。
目前国内外已有很多关于本体实例匹配方法的研究,并且有不少的本体实例匹配系统被开发出来并得到应用,比较著名的系统包括ASMOV,SLINT+,Sigma,Paris,Codi等等,这些系统在有的数据集上面能够取得较好的结果,但并不能在所有的本体实例匹配任务中都获得令人满意的匹配结果。例如他们全部都不能处理两个本体的实例的谓语个数变化较大的时候的匹配任务,而且这些系统都是基于相似度比较来确定匹配对,以及有的系统在做匹配的时候没有充分利用已有的信息,有的系统只能适用特定的数据集。并且大部分的系统都是有固定的匹配流程,以及采用统一的匹配策略,统一的计算相似度的方案。这些在实际的知识库的匹配中都会带来不良的影响。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何充分利用本体的实体信息,并根据需求对匹配流程进行组装,获得精确地匹配结果。
(二)技术方案
为解决上述技术问题,本发明的技术方案提供了一种基于用户定制的本体实例匹配系统,包括组件模块和配置模块;
所述组件模块,包括多个原子组件;
所述配置模块,用于接收用户输入的定制信息,并根据所述定制信息生成匹配任务定制文件,以及根据所述匹配任务定制文件从所述组件模块中选取用户所需的原子组件以执行本体实例匹配任务,所述匹配任务定制文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。
进一步地,所述组件模块中的原子组件包括:
预处理器,用于在完成实际的匹配操作执行前初始化匹配任务,包括,解析本体、规范化本体中术语、去噪音以及具体的匹配器中所用到的数据结构的建立;
阻塞器,采用倒排索引操作实现本体实例之间的候选对的生成;
相似度计算工具,用于计算对齐谓语的值的相似度;
相似度聚合器,用于对于多个属性的相似度进行聚合;
匹配策略器,用于基于信息的匹配策略和基于相似度比较的策略进行实例对齐;
验证器,用于剔除错误的本体实例匹配对;
结果评估器,用于依据指定的评价指标对优化后的本体实例匹配结果进行评估。
进一步地,所述组件模块中的原子组件还包括翻译器,用于处理不同语言的本体实例匹配任务时将语言进行统一化。
进一步地,所述相似度计算工具包括:基于tfidf的余弦相似度计算工具,基于编辑距离的相似度计算工具,基于wordNet相似度计算工具。
进一步地,所述相似度聚合器对于多个属性的相似度进行聚合的方法包括:平均聚合方法,sigomid聚合方法,加权指数平均聚合方法。
为解决上述技术问题,本发明还提供了一种上述系统进行本体实例匹配的方法,包括:
S1:用户输入定制信息,并通过配置模块根据所述定制信息生成匹配任务定制文件,以及根据所述匹配任务定制文件从所述组件模块中选取用户所需的原子组件;
S2:初始化匹配任务,包括解析本体、规范化本体中术语、去噪音以及具体的匹配器中所用到的数据结构的建立;
S3:采用倒排索引操作生成本体实例之间的候选对,得到候选对集合以及唯一信息实例集合;
S4:对候选对集合进行谓语相似度计算,然后将谓语相似度进行相似度聚合,然后将候选对及其分数作为节点,按分数从高到低进入优先队列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410319194.1/2.html,转载请声明来源钻瓜专利网。





