[发明专利]一种面向文本的领域分类关系自动学习方法有效
申请号: | 201810036779.0 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108170840B | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 李劲松;张桠童;周天舒;田雨;王昱 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 33200 杭州求是专利事务所有限公司 | 代理人: | 刘静;邱启旺<国际申请>=<国际公布>= |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似度 层次聚类 树状图 维度 抽取 分类关系 领域分类 自动学习 剪枝 知识库 文本 矩阵 语义相似度 最终相似度 背景知识 概念抽取 距离估计 领域概念 时间开销 手工标记 无监督 叙词表 语料库 映射 聚簇 句法 加权 | ||
本发明公开了一种面向文本的领域分类关系自动学习方法,采用MEDLINE作为语料库,进行术语抽取与概念抽取,将抽取到的概念进行基于句法相似度和语义相似度的五个维度相似度的计算,然后各个维度的相似度进行加权,得出最终相似度矩阵,以此为依据进行层次聚类得出初始的树状图,再对树状图进行相应的剪枝和聚簇标记,最终得出体现概念之间的分类关系树状图;本发明不需要大量的手工标记,节省了人力与时间开销;将抽取到的术语与权威知识库UMLS超级叙词表进行映射,得出准确的领域概念;采用层次聚类的分布式方法,结合领域背景知识,提供五个维度相似度的计算;提出基于极值距离估计的无监督的层次聚类动态剪枝方法,能够更好地得出领域相关的分类关系。
技术领域
本发明属于本体学习领域,尤其涉及一种面向文本的领域分类关系自动学习方法。
背景技术
虽然生物医学研究领域已经广泛承认了领域本体的实用性,但是对于领域本体的有效使用仍然存在很多阻碍。领域本体一个非常重要的要求就是,他们对于领域概念和概念之间的关系必须取得高覆盖率。然而,这些本体的构建通常是一个手工的,耗时的过程,并且容易产生各种各样的错误。有限的资源导致了概念和关系的丢失,同时加大了知识变化引起的更新本体的难度。此外,构建本体需要领域专家的参与,即使同领域的专家对知识模型的认知也未必相同,所以难以保证构建本体的一致性。因此,许多研究人员致力于采用自然语言处理、计算机语言学和人工智能等领域的方法,实现语义知识的自动和半自动提取,即本体学习技术。
本体学习包括术语抽取、概念抽取、分类关系抽取、非分类关系抽取及公理抽取等。分类关系作为本体构建的重要组成部分,是国内外研究的重点,主要体现的是领域概念间的上下位关系。目前,分类关系的学习主要有两种方法:基于规则的方法和分布式方法。基于规则的方法使用预定义的规则或者启发式模式来提取术语和关系,这些方法通常是基于Hearst提出的词汇-句法模式。分布式方法则将分类关系学习作为一种聚类或者分类任务,并且着重强调分布式相似性,它的优势在于可以发现文本中没有明确出现的关系。
基于规则的方法依赖于能够提供高准确度的静态语言模式(规则),不但需要广泛的领域专业知识,而且需要大量的手工标记,很难推广到其他领域。分布式方法需要极少量的先验知识,提供了更好的可扩展性,但是关键点在于有效的相似度计算准则。
发明内容
本发明的目的在于针对现有技术的不足,提供一种面向文本的领域分类关系自动学习方法,采用MEDLINE作为语料库,进行术语抽取与概念抽取,将抽取到的概念进行基于句法相似度和语义相似度的五个维度相似度的计算,然后各个维度的相似度进行加权,得出最终的相似度矩阵,以此为依据进行层次聚类得出初始的树状图,再对树状图进行相应的剪枝和聚簇标记,最终得出体现概念之间的分类关系树状图。
本发明的目的是通过以下技术特征来实现的:一种面向文本的领域分类关系自动学习方法,包括以下步骤:
(1)将从MEDLINE上抽取到的xml格式的论文中的摘要部分存储为txt格式,作为语料库;
(2)对步骤(1)得到的语料库采用自然语言处理工具MMTx进行初步术语抽取;
(3)将步骤(2)抽取到的术语与UMLS超级叙词表映射,不同的术语可能会映射到相同的概念;将所有的术语进行概念映射,最终形成领域概念集合;
(4)综合句法相似度和语义相似度进行概念间相似度的计算,将相似度分为5个维度,最终的概念Ci和Cj之间的相似度Sim(Ci,Cj)是各维度相似度归一化加权的结果,对于n个概念最终得到一个n×n的相似度矩阵;Sim(Ci,Cj)的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810036779.0/2.html,转载请声明来源钻瓜专利网。