[发明专利]基于用户定制的本体实例匹配系统及方法在审

申请号：	201410319194.1	申请日：	2014-07-04
公开（公告）号：	CN104133673A	公开（公告）日：	2014-11-05
发明（设计）人：	邵超;胡琳梅;李涓子	申请（专利权）人：	清华大学
主分类号：	G06F9/44	分类号：	G06F9/44
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李相雨
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于用户定制本体实例匹配系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于用户定制的本体实例匹配系统，其特征在于，包括组件模块和配置模块；

所述组件模块，包括多个原子组件；

所述配置模块，用于接收用户输入的定制信息，并根据所述定制信息生成匹配任务定制文件，以及根据所述匹配任务定制文件从所述组件模块中选取用户所需的原子组件以执行本体实例匹配任务，所述匹配任务定制文件包括：待匹配本体O₁和O₂的URI位置、匹配参数和匹配流程。

2.根据权利要求1所述的基于用户定制的本体实例匹配系统，其特征在于，所述组件模块中的原子组件包括：

预处理器，用于在完成实际的匹配操作执行前初始化匹配任务，包括，解析本体、规范化本体中术语、去噪音以及具体的匹配器中所用到的数据结构的建立；

阻塞器，采用倒排索引操作实现本体实例之间的候选对的生成；

相似度计算工具，用于计算对齐谓语的值的相似度；

相似度聚合器，用于对于多个属性的相似度进行聚合；

匹配策略器，用于基于信息的匹配策略和基于相似度比较的策略进行实例对齐；

验证器，用于剔除错误的本体实例匹配对；

结果评估器，用于依据指定的评价指标对优化后的本体实例匹配结果进行评估。

3.根据权利要求2所述的基于用户定制的本体实例匹配系统，其特征在于，所述组件模块中的原子组件还包括翻译器，用于处理不同语言的本体实例匹配任务时将语言进行统一化。

4.根据权利要求2所述的基于用户定制的本体实例匹配系统，其特征在于，所述相似度计算工具包括：基于tfidf的余弦相似度计算工具，基于编辑距离的相似度计算工具，基于wordNet相似度计算工具。

5.根据权利要求2所述的基于用户定制的本体实例匹配系统，其特征在于，所述相似度聚合器对于多个属性的相似度进行聚合的方法包括：平均聚合方法，sigomid聚合方法，加权指数平均聚合方法。

6.一种如权利要求1至7任一所述的系统进行本体实例匹配的方法，其特征在于，包括：

S1：用户输入定制信息，并通过配置模块根据所述定制信息生成匹配任务定制文件，以及根据所述匹配任务定制文件从所述组件模块中选取用户所需的原子组件；

S2：初始化匹配任务，包括解析本体、规范化本体中术语、去噪音以及具体的匹配器中所用到的数据结构的建立；

S3：采用倒排索引操作生成本体实例之间的候选对，得到候选对集合以及唯一信息实例集合；

S4：对候选对集合进行谓语相似度计算，然后将谓语相似度进行相似度聚合，然后将候选对及其分数作为节点，按分数从高到低进入优先队列；

S5：对新产生的唯一信息实例集合，利用唯一主语匹配策略进行实例的对齐操作，然后将新产生的对齐的实例对利用剩一宾语匹配策略产生新的实例匹配对，根据新产生的实例匹配对更新唯一信息实例集合，然后利用该新产生的实例匹配对来更新优先队列中相关候选对的分数，以及产生新的候选对并计算其分数，重复该步骤直至没有产生新的唯一信息实例集合；

S6：对于候选对集合，使用得分匹配策略获取得分最高的候选对，如果获取的候选对的分数低于预设的阈值则跳转到S7，否则把该获取的候选对作为实例匹配对，然后更新相应的候选对的分数，并且产生新的候选对，以及更新唯一信息实例集合，跳转到S5；

S7：对对齐的实例匹配对进行验证。

7.根据权利要求6所述的方法，其特征在于，所述步骤S4中对相似度进行聚合的方式为：

ExpAgg(S)=Σsi∈Swi,*exp(wi,,*Si)Σsi∈Swi,*exp(wi,*1)]]>