[发明专利]一种领域本体构建方法及系统有效
申请号: | 201210017772.7 | 申请日: | 2012-01-19 |
公开(公告)号: | CN103218362A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 董振江;吉锋;罗圣美;程龚;瞿裕忠 | 申请(专利权)人: | 中兴通讯股份有限公司;南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) 11270 | 代理人: | 张颖玲;程立民 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 本体 构建 方法 系统 | ||
技术领域
本发明涉及信息系统建模和知识工程领域,尤其涉及一种基于本体复用的领域本体构建方法及系统。
背景技术
汤姆·格鲁伯(Tom Gruber)将本体(Ontology)定义为一种为共享而构建的概念化的显式规范。概念化是指为一个领域或范围内的抽象概念、具体对象、对象属性及对象间关系建立的模型,而本体是将一个概念化显式地表示成为规范,以便多个主体共享。在本体中,上述概念、关系等统称为术语(Term);本体可以视作由称作公理(Axiom)的术语描述组成的集合。尼古拉·高利诺(Nicola Guarino)将本体分为顶层本体、领域本体、任务本体、应用本体。其中,顶层本体描述通用的概念(如空间、时间),领域和任务本体分别描述一般的领域(如单反相机)和一般的任务(如相机销售),而应用本体则描述具体应用涉及的具体范围(如一个具体的单反相机销售网站)。其中,顶层本体通常比较稳定,应用本体的共享意义较小,因此,领域和任务本体的构建最为活跃,其构建方法最为重要。
现有的构建领域本体的方法可以分为两类:手工构建和半自动构建。手工构建以本体描述捕获方法(IDEF5,Integrated Definition for Ontology Description Capture Method)为代表,将本体构建的过程分为目标和团队建立、原始素材采集、素材分析、本体初步构建、本体精化和验证等5个步骤,每一步都由人手工完成。半自动构建又称本体学习,由计算机程序自动地从文本中抽取出表示概念、概念间关系等的术语,形成初步的本体,再经过人手工精化和验证。然而,目前计算机程序自动构建的初步本体在质量上通常很差,并不能有效降低对人工的依赖,因此手工构建仍是主流方法。
在手工构建领域本体时,一种提高效率的方式是复用现有本体,即针对新的需求对一个相同或相近领域的现有本体加以改造,成为一个新的本体,从而比重新开发节约成本。然而,从大量的现有本体中发现适合复用的本体手段非常匮乏。目前的一种主要途径是逐一浏览在线的本体图书馆(如美国国防部先进研究项目距代理标记语言(DAML,Defense Advanced Research Projects Agency Agent Markup Language)本体图书馆)中的本体,效率低下。另一种新兴的途径是进行本体检索,向本体检索系统(如Swoogle搜索引擎)提交查询关键词,获取并只浏览能够匹配到查询关键词的本体,从而提高效率。然而,尚未形成良好定义的方法来指导上述检索过程,特别是查询的构建方法。另一种加速手工构建领域本体的方式是多人协同构建,这种方式的难点在于多人构建结果的冲突检查和消解。
尽管领域本体作为概念层次的模型,已经脱离了自然语言的层面,但在供人使用时仍需要对术语采用自然语言中的词汇进行命名,以便人的理解,因此,术语名称也是领域本体的重要组成部分。由于自然语言的多样性,一个术语可能对应到多个同义的自然语言词汇(如单反相机和单镜头反光相机),因此,领域本体构建中的一项重要环节是尽可能完全地获取术语名称的所有同义词。
现有的同义词获取方法主要是利用语言学专家构建的同义词词典(如WordNet)。尽管同义词词典的精度很高,但覆盖面有限,并且目前可以获得的计算机程序易处理的同义词词典很少,其中,中文的同义词词典更少,因此,领域本体构建中的中文术语名称的同义词获取非常困难,通常只能基于构建者(即领域专家)的经验完成,难以保证质量,特别是获取的召回率(即完全度)。
另一种同义词获取方法是利用社会公众的群体智能,这种方法利用了搜索引擎的用户查询日志,其基本思想是认为如果两个关键词常在用户查询中出现,且用户常打开它们对应的查询结果中的相同网页,则这两个关键词被认为是同义词。该方法存在的不足主要在于获取同义词的精度(即正确率)很低。原因在于一个网页可能涉及多个不同的主题,分别对应到不存在同义关系的多个关键词,因此,即使用户基于不同的查询关键词打开了相同的网页,也并不表明这些关键词必然存在同义关系。
发明内容
有鉴于此,本发明的主要目的在于提供一种领域本体构建方法及系统,提供一种面向本例检索的关键词查询的构建方法,具有良好的定义和可操作性,可取得较高的本体复用率。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供一种领域本体构建方法,包括:
罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司;南京大学,未经中兴通讯股份有限公司;南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210017772.7/2.html,转载请声明来源钻瓜专利网。