[发明专利]一种从维基中抽取领域术语间上下位关系的方法有效
申请号: | 201310578954.6 | 申请日: | 2013-11-16 |
公开(公告)号: | CN103699568A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 何绯娟;缪相林 | 申请(专利权)人: | 西安交通大学城市学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 弋才富 |
地址: | 710018 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 维基中 抽取 领域 术语 下位 关系 方法 | ||
1.一种从维基中抽取领域术语间上下位关系的方法,其特征在于,包括如下步骤:
步骤一:领域术语的页面文本与超链接关系获取
(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历;
(2)将遍历到的页面存为一个文本集:对于每个页面文本,用该文本对应的URL去掉http://en.wikipedia.org/wiki/后剩余的字符串作为文件名,该文件名也作为领域术语;
(3)将遍历到的超链接关系存为一个二元组集合E:二元组形式为(termi,termj),termi与termj为超链接所连接的页面文本对应的文件名;
(4)利用一组URL正则表达式过滤到未指向领域术语的超链接,即不遍历能匹配下列正则表达式的URL:
a)^/List_of_/w+$
b)^/w+(ist|ists)$
c)^[1-9]+_/w+$
d)^/w+(organisation|government|company)/w+$
e)^/w+(man|men)$
步骤二:特征选择与构建
选择能够从超链接关系中识别出上下位关系的特征,并构建E中每个超链接(termi,termj)的特征向量;这里上下位关系是指子类与类(kind-of),实例与类(is-a)关系;
所述的识别出上下位关系的特征包括五个特征:从二元组集合中获得的双向链接特征、边介数(edge-betweenness)特征、聚集系数(Clustering coefficient)特征;从文本集中获得的锚文本(anchor text)位置特征、锚文本上下文(Context)特征;对五个特征进行量化,并构建五维特征向量;
步骤三:上下位关系抽取
利用所构建的五维特征向量,结合每个特征向量对应超链接的类标签,即上下位关系或非上下位关系,形成一个训练数据集,采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类,从而实现上下位关系的抽取。
2.根据权利要求1所述的一种从维基中抽取领域术语间上下位关系的方法,其特征在于,步骤二所述的五个特征及特征向量的构建具体如下:
利用从二元组形式的超链接集合E,建立以领域术语为节点,超链接为边的有向图GW(N,E),其中N为领域术语集,其中的每个领域术语对应一个维基页面文件名;
特征一:双向链接特征(two_way)
对于(termi,termj)∈E,若(termj,termi)∈E,则two_wayij=1;否则two_wayij=0;
特征二:边介数特征(edge_betw)
对于(termi,termj)∈E,edge_betwij-b(i,j);这里,b(i,j)表示(tetmi,termj)这条边在GW中的边介数;b(i,j)的计算公式如下:
式(1)中,σu,w是节点u,w在GW中最短路径的条数;σu,w(i,j)是节点u,w在GW中通过边(termi,termj)的最短路径的条数;
特征三:聚集系数特征(clustering)
对于(termi,termj)∈E,设定
式(2)中,c(i)、c(j)分别是节点termi、termj在GW中的聚集系数。节点u聚集系数计算公式为:
通过分析页面文本,获得两个特征:
特征四:锚文本位置特征(anchor_loc)
若two_wayij=0,则anchor_locij=0;
若two_wayij=1,则
式(3)中,loc(x,y)表示超链接(x,y)在页面x中的位置,即从网页起始处的字符到超链接(x,y)锚文本起始处之间的字符数量;
特征五:锚文本上下文特征(anchor_cont)
从超链接(termi,termj)所在的页面文本中提取(termi,termj)的锚文本及其前后各32个单词,组成一个文本片段;
1)若该文本片段能够匹配下表中的某个正则表达式,假设为第k个,则anchor_contij=wk;
2)若该文本片段能够匹配下表中的多个正则表达式,设为第k1,k2,...,km(m>1)个正则表达式,则
3)若该文本片段不能匹配下表中的正则表达式,则anchor_contij=0;
基于上述五个特征,对于每个(termi,termj)∈E,构建五维特征向量:
(two_wayij,edge_betwij,cluteringij,anchor_locij,anchor_conij)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学城市学院,未经西安交通大学城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310578954.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种等离子加热装置
- 下一篇:汽车灯光旋钮开关弹片铆接出料机构