[发明专利]基于Bootstrapping技术的领域本体概念自动获取方法无效

申请号：	201210118233.2	申请日：	2012-04-20
公开（公告）号：	CN102622341A	公开（公告）日：	2012-08-01
发明（设计）人：	杜军平;杨月华;李雪	申请（专利权）人：	北京邮电大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 bootstrapping 技术领域本体概念自动获取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于领域概念自动获取方法，具体为基于Bootstrapping技术的领域本体概念自动获取方法。该方法对已有的方法进行了改进，能够提取出复合的领域概念和语义相似的领域概念，提高了自动获取的召回率和准确率。

背景技术

本体是一种用来描述概念以及概念之间关系的知识表示方法，自提出以来就引起了国内外众多科研人员的广泛关注，目前已经被应用于语义Web、智能信息检索、信息集成等很多领域，领域本体的构建则是这些研究的基础。但是目前许多本体都严重依赖于领域专家来构建，这种完全依靠人工搜集概念来构建本体的方法不仅代价很高，无法进行大规模扩展，同时要促使大量的用户和领域专家来构建本体也存在相当的困难。概念是在领域中表示观念、范畴、任务、功能、行为或事物等的实体集合，是具有语义的词汇的集合，它可以是词语，也可以是短语。概念是本体的重要组成部分，因此，领域概念的获取是构建本体的基础，它的结果也将直接影响到概念间关系的提取。

目前概念获取主要采用基于语言学的方法和基于统计的方法，但是采用语言学的方法时规则和模板的建立和维护困难，可移植性差；基于统计的大部分方法未考虑复合词语的提取，因而复合词语形式的领域概念往往也就无法提取出来，此外，基于统计的方法一般都忽略了语义因素，导致一些语义相似的领域概念由于各自出现的频率较低而被遗漏。本发明的领域概念自动获取方法就是为了解决这些问题而提出的。

发明内容

本发明的目的在于提供一种基于Bootstrapping技术的领域本体概念自动获取方法，提高领域概念获取的效率以及自动获取的准确率和召回率。算法如下：

输入：种子概念集合SW，未标注的语料库，最低句频F_min，最小支持度S_min，互信息和信息熵阈值MI_min和t，语义相似度阈值t_sim，评价阈值m_min和t_min

输出：领域概念集合DC

过程：

(1)对语料库以句为单位进行分词，去除停用词，生成词语集合C

(2)将C按二元词组(复合词语由两个词组成)、三元词组、四元词组进行分割，得到候选词集合CL

(3)若CL不为空，则取字符串s，其中，s∈CL，CL＝CL-s，若s满足式(1)，则s是复合词语，加入复合词语集合CW＝CW∪s

Hl(s)>tHr(s)>tMIs>MImin---(1)]]>