[发明专利]一种本体概念及层次关系生成方法有效
申请号: | 201310114031.5 | 申请日: | 2013-04-03 |
公开(公告)号: | CN103207856A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | 王俊丽;王志成;赵卫东;柳先辉;余淼淼;梁梅连 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海天协和诚知识产权代理事务所 31216 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 本体 概念 层次 关系 生成 方法 | ||
技术领域
本发明涉及本体学习领域,特别涉及到一种本体概念及层次关系生成方法。
背景技术
在语义网体系结构中,用于表示Web信息语义的本体是系统的核心和关键所在。作为一种能在语义和知识层次上描述概念模型的建模工具和表达知识的共享概念模型,本体在语义Web、知识工程、自然语言处理、多Agent系统、信息检索、智能信息集成等相关领域中发挥着重要作用。
本体学习是通过机器学习和统计学等技术自动或半自动地从已有的数据资源中获取期望的本体知识。由于实现完全自动的知识获取技术尚不现实,所以,通常整个本体学习过程是在用户指导下进行的一个半自动的过程。
概念是构成本体的一个基本要素,是对领域内知识实体的抽象描述。概念学习就是从选择的文本中获取领域相关的概念,并建立概念之间的分类关系。本体概念及层次的抽取在本体学习具体任务的层次中处于核心位置。
自动或半自动本体概念的获取方法大体上可以分为三类:基于语言学的方法、基于统计学的方法和两者混合方法。
基于语言学的方法依赖于自然语言处理工具,使用浅层解析技术或模板方法获取概念。这类方法在语言消歧、准确率等方面有明显优势,但是在很多情况下,是依赖于具体语言的。
基于统计学的方法主要思想是依据样本中词汇单元的共现来证明语义关系。优点是易于实现且不依赖于某一专门领域和任何外部资源。
混合方法是采用语言学和数学统计方法相结合来获取概念。其中,语言学规则侧重于获取待选概念,而数学统计方法则用以获取前或者获取后的筛选,从而提高概念获取的准确性和效率。目前大多数的本体学习系统一般都采用混合方法来获取本体概念。
概率主题模型是在潜在语义分析技术基础上发展起来的,它使用概率图模型和主题模型的理论和方法,通过使用图表示联合概率分布,将图论和概率论进行有机结合,从而使用一个多变量进行统计模拟的形式体系。可以在不需要计算机真正理解自然语言的情况下,提取可以被人理解的、相对稳定的隐含语义结构,为大规模数据集中的文档寻找一个相对短的描述。概率主题模型可以为本体学习中概念获取提供数理基础和准确性保障,从而提高了概念获取的可靠性。
PAM是目前应用非常广泛的概率主题模型之一,它将每个文档表示成主题的混合,而主题是单词或其他主题上的的多项式分布,不但可以获得词之间的关联,而且可以的到不同主题之间的相关性。特殊形式的四层PAM(PAM4L),是一个多层的生成式概率模型,该模型包含四层:第一层是文本,第二层是S个主题,第三层是S′个主题,最底层是单词。根节点和所有超主题相关联,每个超主题和所有子主题全相关,每个子主题是词集上的全分布。不但可以获取词和主题的关联,而且可以得到主题之间的关联性。
发明内容
本发明目的要克服现有技术中本体概念及层次学习效果欠佳的不足,提供一种改进的本体概念及层次关系生成方法,结合基于概率统计和基于语言学模式的本体概念学习方法,将PAM概率主题模型应用于本体的概念学习阶段,改进本体概念及层次学习的效果,以达到更加准确有效地生成本体概念及层次关系。
为达到上述发明目的,本发明采用结合词性标注、词干提取、去除停用词和相似度计算等语言学方法和PAM概率主题模型等统计学方法的混合方法,来实现本体学习过程中最核心的概念及概念层次学习。本发明首先在对语料库进行预处理后,使用PAM概率主题模型的方法自动获取主题层次信息,然后使用基于Wordnet的相似度计算方法从主题集合中提取概念,从而建立完整的本体概念及层次结构。
本发明需要保护的技术方案表征为:
一种本体概念及层次关系生成方法,其特征在于,包括如下步骤:
(1)文档预处理,构建本体术语集合:
给定关于某专业领域的一组文档集合,通过词性标注、词干提取、去掉停用词等预处理技术,获取语料库中的有用信息,进而构成术语集;
(2)词频统计,生成词频矩阵:
基于文档中术语出现频率的统计,生成一个文档-术语的频率矩阵,即词频矩阵,矩阵中的每一项记录了每个术语在语料库中每个文档中出现的频率;
(3)模型推断:
概率主题模型通过引入隐藏变量的中间层以表达文档和词之间的连接关系,根据语料库中的文档以及文档中观测到的词频矩阵,通过PAM概率主题模型的迭代,采用Gibbs抽样算法,统计推断出隐含变量的后验分布信息,每个概念主题关联的术语及其关联概率特征项;
(4)语义关联度判定,概念学习:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310114031.5/2.html,转载请声明来源钻瓜专利网。