[发明专利]一种基于SVM的标签发展趋势预测模型的构建方法有效
申请号: | 201710127478.4 | 申请日: | 2017-03-06 |
公开(公告)号: | CN106951471B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 傅晨波;郑永立;李诗迪;宣琦 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/9535 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 svm 标签 发展趋势 预测 模型 构建 方法 | ||
1.一种基于SVM的标签发展趋势预测模型的构建方法,其特征在于,所述方法包括如下步骤:
步骤1:数据预处理,收集网站社区的信息内容和其对应的标签数据,对其数据内容按时间排序,取社区形成N天之后的数据,以确保社区的标签网络初步形成;
步骤2:选取样本标签,对数据集进行统计,获取社区标签频率并排序,取比例为前α%的标签作为流行标签,其集合记为Upop;在剩下的标签中选取与流行标签时间相对照的标签为非流行标签;
步骤3:构建标签网络,对同一个信息内容中出现的标签,即认为这些标签间存在关系,使其两两之间形成连边;对所有信息遍历,得到有权无向网络的标签网络图GTag,其中节点为新出现的标签,连边为标签之间的关系,网络的权重为两者共同出现的次数;
步骤4:提取特征数据,对样本标签集合U={Upop,Uunpop},提取其内标签首次创建之后M天网络特征和属性特征,建立样本训练数据集;
在所述步骤4中,提取样本标签的网络特征,M取30,网络特征包括以下方式:
1)新标签提出后30天内的相对度中心性:标签ti的度值Di的计算采用去除孤立节点的方式,计算公式如下:
其中,N表示网络中的标签总数;aij表示网络邻接矩阵的元素,即如果标签ti和tj有连边,则aij=1,否则aij=0;
标签ti的度中心性的特征计算,取网络中的标签ti的相对度中心性:
其中,Di表示标签ti的度值;
2)新标签提出后30天内的邻居平均度中心性,标签ti的邻居平均度NCi的计算如下:
其中,Nneighbor表示标签ti的邻居节点个数,表示标签ti的邻居节点度值之和;
3)新标签提出后30天内的相对接近中心性,标签ti的接近中心性的度量计算,则同样取标签ti的相对接近中心度:
其中,dij表示标签ti与标签tj的距离,表示标签ti到邻居标签节点的平均测地距离;
4)新标签提出后30天内的特征向量中心性,标签ti的特征向量中心性计算如下:
其中,η是一个比例常数,A=(aijwij)是加权的网络邻接矩阵,其中wij表示标签ti与tj之间的权重,并且有wij=wji,记x=[x1 x2…xN]T,则式(5)可写成如下矩阵形式:
x=ηAx, (6)
x是矩阵A是特征值η-1对应下的特征向量,也称为特征向量中心性;
5)新标签提出后30天内的节点聚类系数,标签ti的聚类系数计算如下:
其中,Ei表示标签ti的ki个邻居标签节点之间实际存在的边数,ki(ki-1)/2表示标签ti的ki个邻居节点之间有可能存在的最大边数;
步骤5:采用机器学习分类器模型支持向量机SVM,选取核函数,训练生成基于SVM的标签流行趋势预测模型,并进行十折交叉验证,得出模型结果。
2.如权利要求1所述的一种基于SVM的标签发展趋势预测模型的构建方法,其特征在于:在所述步骤1中,选取N天后的数据作为预处理的数据,其中N的选取,遵循规则为:确保网站中前10%的标签数据在N天内已经生成,即网站中的标签网络已经初步形成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710127478.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于业务知识图检索的智能问答系统
- 下一篇:聚铝产品的生产装置