[发明专利]基于语义共现模型的概念关系标签抽取方法有效

专利信息
申请号: 201210125772.9 申请日: 2012-04-25
公开(公告)号: CN102750316A 公开(公告)日: 2012-10-24
发明(设计)人: 张辉;赵元浩;胡红萍;马永星 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京汲智翼成知识产权代理事务所(普通合伙) 11381 代理人: 陈曦;郭亚芳
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语义 模型 概念 关系 标签 抽取 方法
【说明书】:

技术领域

发明涉及一种概念关系标签抽取方法,尤其涉及一种基于语义共现模型的概念关系标签抽取方法,属于语义网络技术领域。

背景技术

在当前信息社会中,互联网无疑是数据的最大载体,以超链接关联的超文本信息日益增长,构成了信息网络世界,已经彻底改变了现代人类的工作和生活的方式。随着计算技术、信息技术和互联网的发展,人们对文本信息处理有了更高的要求,从自然语言描述的文本中挖掘和发现概念实体(比如,机构,人物,时间,地点等),以及概念之间的关系(比如“人物”在“机构”中任职,“人物”毕业于“地点”等),就是相关研究的重要内容之一。信息提取主要是从文本中获取所需要的信息,目前已经受到越来越多研究者的关注。

在自然语言世界中,概念是对客观实体的抽象描述,是客观实体属性特征的集合。由于客观实体的相互作用,概念之间亦产生千丝万缕的关联,我们称之为概念关系。概念及概念关系共同构成了自然语言世界的基础,如果说自然语言世界是一个语义网络,那么概念就是语义的载体,而概念关系就是语义载体间的纽带。通过研究概念关系可以反射得出客观世界中实体关联的内容与性质,进而为人类的工作和生活服务。

为适应语义推理和智能化服务的需求,语义Web为代表的下一代信息互联网络试图在任何微小数据间构建连接,而概念关系正是构建语义网络的基础。因此,概念关系抽取技术是人类信息第二次变革的基础。

概念关系抽取在自然语言处理、人工智能、数据挖掘等领域都有着广泛应用。本体知识库WordNet、HowNet等均包含丰富的概念关系,已广泛应用于信息检索、自动问答和机器翻译技术的研究与系统实现。概念关系标签的抽取依赖于已经发现的概念关系对,在具有语义关系的概念对共现上下文中一定存在着词语模式可以作为此概念关系的标签。

开放百科包含的概念数目超过300万,而语义关系相对稀疏,如何保证概念关系发现的准确性和快速有效性是现有技术中存在的难点。但由于中文句法结构和语用习惯复杂多变,概念关系标签的自动化抽取仍然是目前尚待解决的问题之一。

发明内容

针对现有技术所存在的不足,本发明所要解决的技术问题在于提供一种基于语义共现模型的概念关系标签抽取方法。该概念关系标签抽取方法实现了概念关系自动化,提高了概念关系标签抽取的有效性。

为实现上述的发明目的,本发明采用下述的技术方案:

一种基于语义共现模型的概念关系标签抽取方法,包括:

通过带偏移量的倒排搜索获取共现语段;

结合浅层句法分析和加权词窗得到候选关系标签;

经过语义相关性聚类后选取概念关系标签。

更进一步地,所述通过带偏移量的倒排搜索获取共现语段的步骤包括:

使用开源搜索引擎对元数据描述信息及百科全文进行倒排索引预处理,对概念共现语段的快速定位;

设定概念之间的偏移量,获取有效的局部语段。

更进一步地,所述开源搜索引擎是全文检索引擎。

更进一步地,所述结合浅层句法分析和加权词窗得到候选关系标签的步骤包括:

对语料段落进行分词和词性标注,过滤除名词、动词、标点之外的其他词语;

设置主干序列;

以词语之间距离设定词窗,得到候选关系标签。

更进一步地,所述词语之间距离通过下式计算:

dis(t1,t2)=num(tv_between(t1,t2))+num(tn_between(t1,t2))+num(pi_between(t1,t2))

其中,名词记为tn,动词记为tv,标点符号记为pi,dis(t1,t2)表示词语t1和词语t 2之间的距离;num函数表示词语个数,tn_between(t1,t2)表示t1,t2之间的名词,tv_between(t1,t2)表示t1,t2之间的动词,pi_between(t1,t2)表示t1,t2之间的标点符号。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210125772.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top