[发明专利]一种基于网址结构的网络论坛页面聚类方法及设备有效

申请号：	201710598015.6	申请日：	2017-07-20
公开（公告）号：	CN107402998B	公开（公告）日：	2020-01-31
发明（设计）人：	王红;刘锐	申请（专利权）人：	山东师范大学
主分类号：	G06F16/958	分类号：	G06F16/958;G06F16/35
代理公司：	37221 济南圣达知识产权代理有限公司	代理人：	张勇
地址：	250014 ***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网址结构网络论坛页面方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及本发明公开了一种基于网址结构的网络论坛聚类方法及设备，该方法涉及数据挖掘领域，是为解决大规模网页分类问题而提出的。该方法从网址总体中抽取部分样本，利用网络论坛网址高度结构化的特性，对每个网址进行结构划分，构造结构向量，使用本发明提出的距离函数评估结构向量之间的距离，接着使用密度峰值聚类方法对样本结构向量进行聚类分析，提取出每簇的特征结构，构造用于描述簇中所有样本网址的解析器，用于对总体中剩余网址进行解析和分类。经实验验证，本方法具有较高的准确度和执行效率。

技术领域

本发明属于网络数据挖掘的技术领域，尤其涉及一种基于网址结构的网络论坛页面聚类方法及设备。

背景技术

网址是用于唯一确定一个网页的基本特征。而页面分类对网络数据挖掘具有重要意义，是对不同种类页面进行后续处理前的最重要的准备工作。目前，对网页进行分类的方法有根据语义结构进行分类；使用遗传算法，以网页标签和属性为分类特征进行分类；利用上下文特征，使用支持向量机进行分类。使用蚁群算法根据优选特征进行分类等等。但是，在实际中，论坛页面之间的共性并不显著，使得网页特征提取具有随意性；此外，网络论坛中页面众多，上述方法均难以满足大规模分类的速度需求。目前，基于论坛页面网址结构，构造结构向量进行聚类分析的方法尚未出现。

综上所述，在现有技术中针对网络论坛页面如何有效进行网页分类，提高网页分类的准确度与效率的问题，尚缺乏有效的解决方案。

发明内容

本发明为了解决上述问题，提供一种基于网址结构的网络论坛页面聚类方法及设备。本发明根据网址构造结构向量，并计算结构向量之间的相异度，使得可以使用聚类分析方法对网页进行分类，针对网络论坛页面有效实现网页分类，提高网页分类的准确度与效率。

本发明的第一目的是提供一种基于网址结构的网络论坛页面聚类方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种基于网址结构的网络论坛页面聚类方法，该方法包括以下步骤：

(1)按照网页所属域名对所有网页进行初步分组，对于初步分组后的每一组网页进行抽样组成样本，并在样本中插入带标记的待筛选网页形成样本网页；

(2)将样本网页的除域名外的网址根据符号进行分割，对分割后的每一部分网址的类别和内容进行编号，构造出结构块；

(3)将同一网址的各个结构块按顺序依次排列，构成该网址的结构向量；计算样本网页中的任意两个结构向量的相异度，和网页样本中最小较高密度结构向量相异度即任意一个结构向量与大于其局部密度且与其相异度最小的结构向量的相异度；分别作为横坐标和纵坐标构造决策图，确定簇中心，采用广度优先结构向量归属确定法确定非簇中心结构向量的归属簇；

(4)根据步骤(3)的决策图构造出解析规则，将解析规则应用于初步分组后的每一组网页中的非样本网页，进行网页聚类筛选，并采用评价指标进行评价。

进一步的，所述步骤(2)中构造的结构块，用于定量表示网页分割后每部分网址的结构；其构造的具体步骤为：

将样本网页的除域名外的网址根据符号进行分割，判断分割后的每一部分网址的类别和内容是否已有编号；

若某类别或内容已有编号，则采用此编号；

否则，赋予该部分网址的类别和内容一个新编号；

重复上述步骤，直至构成所有样本网页的结构块。

进一步的，所述步骤(3)中网址的结构向量，将结构块组合以表示完整网址的结构；一个结构向量S(u)由若干结构块编号元组p(u,i)组成：

p(u，i)＝(t(u,i),v(u,i)) (1)

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东师范大学，未经山东师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710598015.6/2.html，转载请声明来源钻瓜专利网。