[发明专利]基于锚文本上下文和链接分析的主题抓取方法有效
申请号: | 201410128171.2 | 申请日: | 2014-04-01 |
公开(公告)号: | CN103914538B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 郑小林;陈德人;林臻;郭华 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州中成专利事务所有限公司33212 | 代理人: | 周世骏 |
地址: | 310027 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 上下文 链接 分析 主题 抓取 方法 | ||
1.基于锚文本上下文和链接分析的主题抓取方法,其特征在于,假设网络中有n个主机,网络上的主机构成了一个有向图,主机相互之间的链接构成了图的边,每个主机就是图中的节点;使用两个向量C[1,...,n]和H[1,...,n]分别表示每个主机的状态,C[i]表示主机i从最后一次访问之后到现在积累的cash值,H[i]表示主机i从一开始到最后一次抓取的时候积累的cash值;
在开始链接网页时,在主机的所有链接网页中,即主机的子网页中,要选择链接网页质量最高的进行优先链接,网页质量通过计算链接最终优先级来判断,链接最终优先级的具体计算包括两部分,第一部分是主机的优先级,即链接的全局优先级第二部分是链接的局部优先级:最后链接的最终优先级是链接的全局优先级和局部优先级的加权和;
遍历开始前,先给予种子主机初始cash值,种子主机即指在有向图的遍历过程中选取的起点,然后开始对有向图中的主机进行遍历,即开始链接网页进行抓取,在遍历的过程中,每次抓取网页后,设主机为i,并把主机的cash值,即C[i],均等地分给主机链接到的子链接上去,然后把C[i]加到H[i]上,C[i]清零:
其中,n是指主机的数目、i指任意的主机编号:
主机i的子链接的最终优先级计算步骤具体包括:
(1)讣算链接的全局优先级
链接的全局优先级是指host-priority(i),即主机i的优先级分数,它也是主机所有的子网页的全局优先级分数,那么一个主机i的全局优先级分数,根据网络情况分别用下述两种方式进行计算:
方式A:若主机i处在静态网络(静态网络就是结构不会改变的网络)中,使用下面的公式一进行计算:
其中,H[i]表示主机i从一开始到最后一次抓取的时候积累的cash值,C[i]表示主机i从最后一次访问之后到现在积累的cash值,表示所有主机的历史cash值的和,表示所有的主机的当前cash值的和,j是求和中的任意主机的下标;
方式B:若主机i处在动态网络(动态网络就是网络节点数量不确定的网络,并且网络也在变化中,网络中的节点可能会增加,也可能会减少)中,引入一个变最T,设两个时间点t和t-T,用Ht-T,t[i]来表示在t-T到t这个时间段内主机i积累的cash值(即指Ht-T,t[i]=Ht[i]-Ht-T[i]),用Xt,T[i]表示主机i的全局优先级分数,使用下式进行计算:
公式二;
其中,表示对于任意的i,Xt,T[i]表示主机i的全局优先级分数,∑jHt-T,t[j]指所有的Ht-T,j[j]的和,其中j是求和中的任意主机的下标;
在这种情况下计算得到的Xt,T[i]即为主机i的全局优先级分数;
为了获得Xt,T[i],采用插值法来计算
用G[i]表示主机i最后一次被访问的时间,那么C[i]就表示从G[i]到当前时间t之间主机i积累的cash值,并通过下面的公式计算Xt,T[i]的值:
其中,G[i]表示主机i最后一次被访问的时间,T是指窗口时间段,取值为3天,t指当前时间:
至此,可将通过公式三计算的到的Ht-T,t[i]代入公式二,即可得到Xt,T[i],即作为动态网络中,主机i的全局优先级分数;
(2)计算链接局部优先级
设主机i上的任意链接为1,分别通过下述步骤计算链接局部优先级:
步骤A:计算链接1的上下文,记为context(1):
首先,根据链接1所在的HTML页面中,两个相邻内容元素之间的HTML标签的数量和深度,来计算两个内容元素之间的距离;所述内容元素是含有href属性的HTML标签;所述HTML标签是HTML代码中用“<”和“>”括起来的内容;
两个内容元素之间的距离计算,具体包括下述步骤:
(a)标签深度的计算:用deep表示HTML标签的深度,且设定deep的初始值为0,然后从头开始遍历链接1所在的HTML页面:如果遍历到的当前标签不是闭合标签,则把deep的值加1,如果遍历到的当前标签是闭合标签,则把deep的值减1:然后再继续获取下一个标签,重复上述遍历过程,直到遍历完整个链接1所在的HTMI.页面,最终得到deep的值即为标签深度;所述闭合标签是指标签内含有“/”的标签;
(b):设a和b表示链接1所在的HTML页面中的任意两个内容元素,用S(a,b)表示两个内容元素a和b之间的内容距离,采用下面的公式四进行计算:
公式四;
其中,Xa和Xb分别表不内容元素a、b在遍历中出现的顺序编号,顺序编号是指从第一个遍历的顺序编号为1,之后依次遍历到依次加1,所得到的编号,ya和yb表示a和b的深度,通过步骤(a)计算得到,fa,b(k)表示内容元素a、b之间的顺序编号为k的元素的标签深度值,这个值也已经在步骤(a)中得到,max{ya,.yb}表示ya和yb的最大值、min{ya,yb}表示ya和yb的最小值:
(c):抽取链接的上下文:
首先把链接1所在的HTML页面中的内容元素分块,具体分块方法是遍历链接1所在的HTML页画中的所有内容元素,把步骤(b)中计算得到的任意两个内容元素a、b之间的内容距离,即S(a,b),为0的内容元素分到一个块中:所述块的形式化定义如下:设定G来表示块,块是网页元素的集合,块的集合具有下面的属性:
然后计算块间的距离:用表示块间距离,并定义块间距离如下面的公式五所示:
最后抽取链接上下文:设任意的块为c,取这个块前边挨着的块为p,采用公式五计算c和p的块间距离,如果p块内的内容元素个数小于3并且c,p间的块间距离小于20,则p块为c的上文块,否则c的上文块设为空,抽取上文块内的所有文本,作为context(1),即得到链接1的上下文;
步骤B:计算链接1的内容优先级,用sim(1)表示:
sim(1)用于表示链接1的主题相似度,通过锚文本及锚文本的上下文,以及父亲页面计算得出,设链接1所在的页画为pagel:
sim(1)=μ×sim_real(anchor(1)+context(1))+(1.0-μ)×sim_real(pagel) 公式六:
anchor(1)表示链接1的锚文本,context(1)表示链接1在的链接上下文,且通过步骤A计算得到,pagel为链接1的父页面,μ是权衡因子,且μ的值为0.6;
其中sim_real是一个讣算文本与主题相似度的方法,例如sim_real(page1)表示链接1所在页面的文本的主题相似度,sim_real(anchor(1)+context(1))表示把链接1的锚文本和上下文文本连接起来后的主题相似度:
sim_real(J)通过Rocchio分类算法计算,具体方法为:使用Rocchio分类算法分别计算J的文本与正向和负向两个原型向量的距离,分别记为pDistance和nDistance,sim_real(J)=pDistance-nDistance;其中,J是指pagel或者sim_real(anchor(1)+context(I)),分别计算得到sim_real(pagel)和sin_real(anchor(1)+context(1));
步骤C:讣算链接局部优先级,用insiLe-priority(1)表示链接1的局部优先级;
用structure-priori ty(1)表示链接1的结构优先级分数,insi te-priori ty(1)通过下述公式七进行计算:
insite-priority(1)=λ×structure-priority(1)+(1-λ)sim(1) 公式七;
其中,链接1的结构优先级分数计算为levell表示链接1的层级,层级就是一个链接在主机中的层次(首页为1,首页的子页面为2,依次递增),λ为权衡因子,且λ的值为0.4,sim(1)通过步骤B计算得到;
至此,计算得到的insite-priority(1)值,即为链接i的链接局部优先级分数;
(3)计算链接最终优先级
通过步骤(1)和步骤(2)获取了主机优先级分数和局部优先级分数后,用Hosti来表示抓取到的第i个主机,用Hosti,j来表示主机i上的1链接,Hosti,t的优先级分数,通过下述公式八进行计算:
Hosti,t=α×(host-priority(i))+(1.0-α)×(insite-priority(1)) 公式八;
其中,host-priority(i)表示主机i的全局优先级分数,即通过步骤(1)计算得到,insite-priority(1)表示链接1在主机i中的局部优先级分数,即通过步骤(2)计算得到,α是权重因子,用来调节两部分的比重,且α的值为0.4:
重复上述过程,直至计算完成所有主机i的链接的最终优先级分数,子链接(子链接就是指主机中的链接,例如主机i中的链接1就是i主机的子链接)最终优先级分数高的进行优先链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410128171.2/1.html,转载请声明来源钻瓜专利网。