[发明专利]一种从维基中抽取领域术语间上下位关系的方法有效

专利信息
申请号: 201310578954.6 申请日: 2013-11-16
公开(公告)号: CN103699568A 公开(公告)日: 2014-04-02
发明(设计)人: 何绯娟;缪相林 申请(专利权)人: 西安交通大学城市学院
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 西安智大知识产权代理事务所 61215 代理人: 弋才富
地址: 710018 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 维基中 抽取 领域 术语 下位 关系 方法
【说明书】:

技术领域

本发明涉及一种信息抽取方法,特别涉及一种从维基中抽取领域术语间上下位关系的方法。 

背景技术

上下位关系(Hyponymy relation)是领域术语之间最基本的语义关系,主要描述领域术语间的从属关系,例如“数据挖掘”领域的两个术语K-means algorithm、Cluster analysis之间就存在上下位关系。上下位关系是构建分类体系的基础,在海量数字资源,特别是与领域相关的数字资源(如专业文献、教科书等)的组织管理、分类、检索中具有基础性作用。然而,上下位关系通常隐含在领域相关的文本中,人工标注上下位关系不仅费时费力,而且要求标注者具备针对领域较深厚的专业知识。为此,需要一种自动化的方法来实现领域术语之间上下位关系的抽取。 

专利号为ZL201110312280.6,名称为:一种面向文本的领域术语与术语关系抽取方法,在该专利中,发明人提出一种面向文本的领域术语与术语关系抽取方法。该专利主要依据文本特征,通过条件随机场(Conditional Random Fields,CRF)模型进行多层次标记序列标注,得到待识别文本中术语间的关系,其中包括上下位关系,该发明中将其简写为Hypo。仅依据句子结构特征、术语词频、词性、词性一系列文本特征,使得抽取的准确率不高;其次在术语抽取中涉及分词、词性标注操作,这些文本预处理的结果无法保证完全正确,这也限制了后续的上下位关系抽取的性能。 

发明内容

为了克服上述现有技术的缺陷,本发明的目的在于提供一种从维基中抽取领域术语间上下位关系的方法,该方法从维基中特定领域的页面与超链接中提取文本特征与拓扑特征,利用Random Forest分类器从超链接中自动抽取出上下位关系;以实证分析发现的维基页面文本特征与超链接拓扑特征为指导,采用有监督的分类学习算法,实现领域术语上下位关系自动抽取;与目前单纯基于文本特征的方法相比,有效地提高了抽取的准确率与召回率。 

为达到以上目的,本发明采取如下技术方案予以实现。 

一种从维基中抽取领域术语间上下位关系的方法,包括如下步骤: 

步骤一:领域术语的页面文本与超链接关系获取 

(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历; 

(2)将遍历到的页面存为一个文本集:对于每个页面文本,用该文本对应的URL去掉http://en.wikipedia.org/wiki/后剩余的字符串作为文件名,该文件名也作为领域术语; 

(3)将遍历到的超链接关系存为一个二元组集合E:二元组形式为(termi,termj),termi与termj为超链接所连接的页面文本对应的文件名; 

(4)利用一组URL正则表达式过滤到未指向领域术语的超链接,即不遍历能匹配下列正则表达式的URL: 

a)^/List_of_/w+$ 

b)^/w+(ist|ists)$ 

c)^[1-9]+_/w+$ 

d)^/w+(organisation|government|company)/w+$ 

e)^/w+(man|men)$ 

步骤二:特征选择与构建 

选择能够从超链接关系中识别出上下位关系的特征,并构建E中每个超链接(termi,termj)的特征向量;这里上下位关系是指子类与类(kind-of),实例与类(is-a)关系; 

所述的识别出上下位关系的特征包括五个特征:从二元组集合中获得的双向链接特征、边介数(edge-betweenness)特征、聚集系数(Clustering coefficient)特征;从文本集中获得的锚文本(anchor text)位置特征、锚文本上下文(Context)特征;对五个特征进行量化,并构建五维特征向量; 

步骤三:上下位关系抽取 

利用所构建的五维特征向量,结合每个特征向量对应超链接的类标签(上下位关系与非上下位关系),形成一个训练数据集,采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类,从而实现上下位关系的抽取。 

步骤二所述的五个特征及特征向量的构建具体如下: 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学城市学院,未经西安交通大学城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310578954.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top