[发明专利]基于Bootstrapping技术的领域本体概念自动获取方法无效
申请号: | 201210118233.2 | 申请日: | 2012-04-20 |
公开(公告)号: | CN102622341A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 杜军平;杨月华;李雪 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bootstrapping 技术 领域 本体 概念 自动 获取 方法 | ||
技术领域
本发明属于领域概念自动获取方法,具体为基于Bootstrapping技术的领域本体概念自动获取方法。该方法对已有的方法进行了改进,能够提取出复合的领域概念和语义相似的领域概念,提高了自动获取的召回率和准确率。
背景技术
本体是一种用来描述概念以及概念之间关系的知识表示方法,自提出以来就引起了国内外众多科研人员的广泛关注,目前已经被应用于语义Web、智能信息检索、信息集成等很多领域,领域本体的构建则是这些研究的基础。但是目前许多本体都严重依赖于领域专家来构建,这种完全依靠人工搜集概念来构建本体的方法不仅代价很高,无法进行大规模扩展,同时要促使大量的用户和领域专家来构建本体也存在相当的困难。概念是在领域中表示观念、范畴、任务、功能、行为或事物等的实体集合,是具有语义的词汇的集合,它可以是词语,也可以是短语。概念是本体的重要组成部分,因此,领域概念的获取是构建本体的基础,它的结果也将直接影响到概念间关系的提取。
目前概念获取主要采用基于语言学的方法和基于统计的方法,但是采用语言学的方法时规则和模板的建立和维护困难,可移植性差;基于统计的大部分方法未考虑复合词语的提取,因而复合词语形式的领域概念往往也就无法提取出来,此外,基于统计的方法一般都忽略了语义因素,导致一些语义相似的领域概念由于各自出现的频率较低而被遗漏。本发明的领域概念自动获取方法就是为了解决这些问题而提出的。
发明内容
本发明的目的在于提供一种基于Bootstrapping技术的领域本体概念自动获取方法,提高领域概念获取的效率以及自动获取的准确率和召回率。算法如下:
输入:种子概念集合SW,未标注的语料库,最低句频Fmin,最小支持度Smin,互信息和信息熵阈值MImin和t,语义相似度阈值tsim,评价阈值mmin和tmin
输出:领域概念集合DC
过程:
(1)对语料库以句为单位进行分词,去除停用词,生成词语集合C
(2)将C按二元词组(复合词语由两个词组成)、三元词组、四元词组进行分割,得到候选词集合CL
(3)若CL不为空,则取字符串s,其中,s∈CL,CL=CL-s,若s满足式(1),则s是复合词语,加入复合词语集合CW=CW∪s
其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210118233.2/2.html,转载请声明来源钻瓜专利网。