[发明专利]一种基于网址结构的网络论坛页面聚类方法及设备有效
申请号: | 201710598015.6 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107402998B | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 王红;刘锐 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/35 |
代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 张勇 |
地址: | 250014 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网址 结构 网络 论坛 页面 方法 设备 | ||
1.一种基于网址结构的网络论坛页面聚类方法,其特征是:该方法包括以下步骤:
(1)按照网页所属域名对所有网页进行初步分组,对于初步分组后的每一组网页进行抽样组成样本,并在样本中插入带标记的待筛选网页形成样本网页;
(2)将样本网页的除域名外的网址根据符号进行分割,对分割后的每一部分网址的类别和内容进行编号,构造出结构块;
(3)将同一网址的各个结构块按顺序依次排列,构成该网址的结构向量;计算样本网页中的任意两个结构向量的相异度,和网页样本中最小较高密度结构向量相异度即任意一个结构向量与大于其局部密度且与其相异度最小的结构向量的相异度;分别作为横坐标和纵坐标构造决策图,确定簇中心,采用广度优先结构向量归属确定法确定非簇中心结构向量的归属簇;
(4)根据步骤(3)的决策图构造出解析规则,将解析规则应用于初步分组后的每一组网页中的非样本网页,进行网页聚类筛选,并采用评价指标进行评价;
所述步骤(4)中构造出解析规则的具体步骤为:
在决策图中,选出样本网页中插入的带标记的待筛选网页所在的簇;
在选出的簇中,对于该网页结构向量中的每个位置,记录所有该位置的结构块的类别和内容,当出现超过5种不同的内容时,不再记录内容,仅记录类别;
得到解析规则。
2.如权利要求1所述的一种基于网址结构的网络论坛页面聚类方法,其特征是:所述步骤(2)中构造的结构块,用于定量表示网页分割后每部分网址的结构;其构造的具体步骤为:
将样本网页的除域名外的网址根据符号进行分割,判断分割后的每一部分网址的类别和内容是否已有编号;
若某类别或内容已有编号,则采用此编号;
否则,赋予该部分网址的类别和内容一个新编号;
重复上述步骤,直至构成所有样本网页的结构块。
3.如权利要求1所述的一种基于网址结构的网络论坛页面聚类方法,其特征是:所述步骤(3)中网址的结构向量,将结构块组合以表示完整网址的结构;一个结构向量S(u)由若干结构块编号元组p(u,i)组成:
p(u,i)=(t(u,i),v(u,i)) (1)
S(u)={p(u,i)|i=1,2,...,N} (2)
其中,u为网址,i为网址中第i个结构块,t(u,i)为类别编号,v(u,i)为值即内容编号,p(u,i)为结构块编号元祖,N为总结构块数,S(u)为结构向量。
4.如权利要求1所述的一种基于网址结构的网络论坛页面聚类方法,其特征是:所述步骤(3)中样本网页中的任意两个结构向量的相异度的计算方法为:
其中,um,un为不同的网址,p(u,i)为结构块编号元组,i为网址中第i个结构块,N为总结构块数,D(um,un)为网址um,un的相异度。
5.如权利要求1所述的一种基于网址结构的网络论坛页面聚类方法,其特征是:所述步骤(3)中计算网页样本中最小较高密度结构向量相异度的具体步骤为:
对网页样本中的每个结构向量,分别计算其局部密度;
对于网页样本中的任一结构向量,判断其局部密度与其他结构向量的局部密度,在局部密度大于其局部密度的结构向量中,比较该结构向量与其他大于其局部密度的结构向量的相异度,选择最小的相异度作为网页样本中该结构向量的最小较高密度结构向量相异度;
所述步骤(3)中结构向量的局部密度ρi为:
其中,KNN(i)为结构向量i的K近邻集合,dij为结构向量i与结构向量j的相异度,ρi为结构向量i的局部密度;
所述步骤(3)中最小较高密度结构向量相异度δi为:
其中,δi为结构向量i的最小较高密度结构向量相异度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710598015.6/1.html,转载请声明来源钻瓜专利网。