[发明专利]一种领域本体构建方法及系统有效
申请号: | 201210017772.7 | 申请日: | 2012-01-19 |
公开(公告)号: | CN103218362A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 董振江;吉锋;罗圣美;程龚;瞿裕忠 | 申请(专利权)人: | 中兴通讯股份有限公司;南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) 11270 | 代理人: | 张颖玲;程立民 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 本体 构建 方法 系统 | ||
1.一种领域本体构建方法,其特征在于,该方法包括:
罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;
对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;
创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;
对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:为新的本体o中描述的术语命名,并根据新的本体o中描述的术语的名称进行同义词获取。
3.根据权利要求1所述的方法,其特征在于,所述罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0为:
对于目标本体所描述的目标领域,使用自然语言LS中的关键词罗列需要被目标本体所描述的所有术语的名称,形成一个关键词集合W0。
4.根据权利要求1所述的方法,其特征在于,所述对关键词集合W0中的所有关键词进行排序,形成关键词序列S0为:
建立树,树中每个节点具有标签和处理标记;
判断树中是否所有节点的处理标记都是“已处理”,如果否,从树中所有处理标记是“未处理”的节点中选取当前节点,所述当前节点的标签的关键词集合W0为当前集合;
判断当前集合中是否只包含一个关键词,当前集合包含超过一个关键词时,将当前集合划分为两个子集,将两个子集中的最重要子集WL作为当前节点的左子节点添加到树中,将两个子集中的另一个子集WR作为当前节点的右子节点添加到树中,将当前节点的处理标记改为“已处理”;否则,将当前节点的处理标记改为“已处理”,然后继续判断树中是否所有节点的处理标记都是“已处理”,直到树中所有节点的处理标记都是“已处理”时,根据关键词集合W0中的所有关键词所对应的节点的深度优先遍历顺序,形成关键词序列S0。
5.根据权利要求4所述的方法,其特征在于,所述将当前集合划分为两个子集为:
将当前集合中的关键词作为对一个领域或范围的描述,将两个子集中的关键词分别作为对该领域或范围的两个不同子领域或子范围的描述。
6.根据权利要求1所述的方法,其特征在于,所述将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O为:
创建待复用的本体集合O,将关键词序列S0记作S,获取S中的满足条件的前缀连续子序列中最长的一个子序列SH,将SH从S的前端截去,得到剩余的后缀连续子序列ST;
判断SH是否为空序列,如果SH为空序列,从ST中删除最前面的一个关键词;如果SH不为空序列,将检索结果HITS(SH)中排名最高的本体添加到O;
判断ST是否为空序列,如果ST不为空序列,将ST记作S,再获取S的满足条件的前缀连续子序列中最长的一个子序列SH,将SH从S的前端截去,得到剩余的后缀连续子序列ST;否则,如果ST为空序列,流程结束。
7.根据权利要求6所述的方法,其特征在于,所述条件为子序列中的所有关键词组合成一个查询关键词组,将所述查询关键词组提交到本体检索系统后,检索结果HITS(SH)不为空。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司;南京大学,未经中兴通讯股份有限公司;南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210017772.7/1.html,转载请声明来源钻瓜专利网。