[发明专利]一种基于Web信息的本体概念属性学习方法有效

申请号：	201310229229.8	申请日：	2013-06-08
公开（公告）号：	CN103324700B	公开（公告）日：	2017-02-01
发明（设计）人：	王俊丽;王志成;赵卫东;梁梅连	申请（专利权）人：	同济大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海天协和诚知识产权代理事务所31216	代理人：	叶凤
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 web 信息本体概念属性学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及本体学习技术和互联网技术领域，特别涉及到一种基于Web信息的本体概念属性学习方法。

背景技术

语义Web直是计算机研究的热点领域，其研究重点主要是围绕如何把Web中的信息表示为机器所能够理解和处理的形式，即带有语义。本体作为种能在语义和知识层次上描述概念模型的建模工具，是语义Web中语义描述的核心和关键。目前，本体已经作为提供领域知识支持的重要资源广泛地应用于知识工程、信息检索、问答系统等各种智能信息处理任务中。

本体学习是通过机器学习、统计学方法和自然语言处理等技术自动或半自动地从已有的数据资源中获取期望的本体知识。由于实现完全自动的知识获取技术尚不现实，所以，通常本体学习是在用户指导下进行的一个半自动的过程。

在本体论概念知识搭建中，描述某一概念模型时，不仅要给出概念名词，而且要给出概念所反映的客观实体的属性描述，称这些属性为概念属性。本体属性作为领域本体知识库构建和应用的重要组成部分，是领域本体知识库自动或半自动构建的一个基础性研究工作的重点，目前国内外相关研究主要集中在本体概念实例及属性的提取，或是概念属性与属性值对的提取，并取得了一定的进展。本体概念属性提取的研究方法主要分为三类：

基于规则的方法：它首先构造基于词语、词性以及语义的模式规则集合并把它们存储起来。在属性提取时，运用语言学知识将欲处理的语句片段与模式规则集合中存储的模式进行匹配，如果匹配成功，则认为该语句具有相对应模式的关系。基于规则的方法需要领域专家参与制定模式规则，此方法代价昂贵，且缺少领域可移植性；

基于统计的机器学习方法：基于统计的机器学习的方法是现阶段进行概念属性提取过程中广泛应用的一种方法。首先利用机器学习算法将人工标注的语料训练成个分类器模型，然后将构建的分类器用于对未标注的语料的预测上，实现对预先定义的类别进行识别。该方法当前使用比较广泛，也取得了客观的成绩。

基于半结构化/结构化数据文档的方法：通过分析半结构/结构化数据文档结构从中提取概念属性也是当今进行概念属性提取的一种主要方法。但这种方法的不足之处在于其只适应于文档格式比较固定且完整的文档，缺乏泛化能力。

发明内容

本发明的目的提供出一种基于Web信息的本体概念属性学习方法，结合基于语言学模式和基于概率统计等技术进行本体概念属性学习，将LDA模型应用于本体的概念属性选取阶段，以达到更加准确有效地生成本体概念属性。

为了达到上述发明目的，本发明提出种基于规则和机器学习的、与文档结构无关的混合方法进行本体概念属性学习，采用词汇-句法模式构建模式集，以Web作为语料库进行候选概念属性词提取，并根据提取结果构建文本集作为LDA模型的输入，利用Gibbs抽样获取LDA模型的训练参数，运行LDA模型后根据提取结果对本体候选概念属性词库进行修剪与合并，得到最终的概念属性集合。

本发明给出下述技术方案：

一种基于Web信息的本体概念属性学习方法，其特征在于，包括如下步骤：

(1)词汇-句法模式集的构建。根据已有的基本语言模式集，利用词汇-语义模式构建并合并表示包含关系的动词形式扩充模式集，最终建立表达概念属性的模式集，作为候选概念属性抽取算法输入的一部分。

(2)候选概念属性库的构建。以Google搜素引擎作为Web数据来源(语料库)，首先构建语言模式集，作为Google的查询输入，提取对应的网页查询片段集合和源网址URL集合。然后根据查询得到的网页片段，根据词频统计获得候选属性词(词频率越高，为属性词的可能性越大)，经过简单筛选就可以得到候选概念属性词集。

(3)文本集的构建。根据候选词库中的属性词，保留其对应的源网址并进行网页提取。对提取的网页文档集合，采用Apache的开源工具OpenNLP作文本预处理，主要是用OpenNLP作词性标注。

(4)LDA修剪合并概念属性集。根据输入的文本集，结合Gibbs抽样参数估计的结果，运行LDA模型。根据LDA模型多次迭代的提取结果修剪和合并候选概念属性词库，得到最终的概念属性集合。

上述本体概念属性学习方法中，所述步骤(2)中具体包括：

1)根据模式集P中的每个模式p_i，分别在Google中执行每个查询p_i；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310229229.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Web信息的本体概念属性学习方法有效

专利文献下载