[发明专利]一种从维基中抽取领域术语间上下位关系的方法有效

专利信息
申请号: 201310578954.6 申请日: 2013-11-16
公开(公告)号: CN103699568A 公开(公告)日: 2014-04-02
发明(设计)人: 何绯娟;缪相林 申请(专利权)人: 西安交通大学城市学院
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 西安智大知识产权代理事务所 61215 代理人: 弋才富
地址: 710018 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种从维基中抽取领域术语间上下位关系的方法,按照如下步骤:(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历,并利用URL正则表达式过滤到未指向领域术语的超链接,遍历得到的页面与超链接分别存为页面文本集与二元组集合;(2)从二元组集合中获得双向链接特征、边介数特征、聚集系数特征;从文本集中获得的锚文本位置特征、锚文本上下文特征,并构建五维特征向量;(3)采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类。本发明能综合运用文本特征与超链接拓扑特征,实现从维基中自动抽取上下位关系。
搜索关键词: 一种 维基中 抽取 领域 术语 下位 关系 方法
【主权项】:
一种从维基中抽取领域术语间上下位关系的方法,其特征在于,包括如下步骤:步骤一:领域术语的页面文本与超链接关系获取(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历;(2)将遍历到的页面存为一个文本集:对于每个页面文本,用该文本对应的URL去掉http://en.wikipedia.org/wiki/后剩余的字符串作为文件名,该文件名也作为领域术语;(3)将遍历到的超链接关系存为一个二元组集合E:二元组形式为(termi,termj),termi与termj为超链接所连接的页面文本对应的文件名;(4)利用一组URL正则表达式过滤到未指向领域术语的超链接,即不遍历能匹配下列正则表达式的URL:a)^\List_of_\w+$b)^\w+(ist|ists)$c)^[1‑9]+_\w+$d)^\w+(organisation|government|company)\w+$e)^\w+(man|men)$步骤二:特征选择与构建选择能够从超链接关系中识别出上下位关系的特征,并构建E中每个超链接(termi,termj)的特征向量;这里上下位关系是指子类与类(kind‑of),实例与类(is‑a)关系;所述的识别出上下位关系的特征包括五个特征:从二元组集合中获得的双向链接特征、边介数(edge‑betweenness)特征、聚集系数(Clustering coefficient)特征;从文本集中获得的锚文本(anchor text)位置特征、锚文本上下文(Context)特征;对五个特征进行量化,并构建五维特征向量;步骤三:上下位关系抽取利用所构建的五维特征向量,结合每个特征向量对应超链接的类标签,即上下位关系或非上下位关系,形成一个训练数据集,采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类,从而实现上下位关系的抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学城市学院,未经西安交通大学城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310578954.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top