[发明专利]一种基于特征选择的移动互联网业务质量预测方法在审
申请号: | 201910320621.0 | 申请日: | 2019-04-20 |
公开(公告)号: | CN110049129A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 李克;谢苏;陈明 | 申请(专利权)人: | 北京联合大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 移动互联网业务 特征选择 业务体验 质量预测 样本集 矩阵 计算先验概率 训练样本集 场景 标记统计 历史数据 训练样本 业务感知 用户业务 归一化 特征权 离网 频数 感知 预警 投诉 概率 预测 发现 | ||
1.一种基于特征选择的移动互联网业务质量预测方法,其特征在于:该方法的实现过程如下,
步骤S1:构造训练样本集
已知在某城市的本地移动网络下,从用户移动终端上采集用户的业务感知样本构成“业务感知样本集”D′={(x′i,y′i),i=1~M′},包含共M’个样本;各样本包含了P个特征项:特征1、特征2、…、特征P,记为:x′={x′1,x′2,…,x′P};以及T个标记项:标记1、标记2、...、标记T,记为:Y′={y′1,…,y′T};对于不同的业务,标记项数和内容也不同;
其中P个特征又进一步分为:N=11个业务特征和P-N个非业务特征;非业务特征即与业务无直接关系的特征,包括日期,时间,大区编号,小区编号,经度,纬度,场强,信号质量,用户标识,终端标识,终端型号;业务特征包括与业务相关的特征项,对于不同的业务,业务特征项数和内容也不同;
根据预设的预测周期L,将业务感知样本集中“日期”字段值与待预测的无标记样本的日期字段值相差超过L天的样本剔除,剩余样本数记为M;
对业务感知样本中的所有数值型特征值利用公式(1)进行归一化,即:
其中x′ij表示第i个样本的第j个特征项的真实值,min x′j和max x′j分别表示第j个特征在该样本集中的最小和最大值;则得到新的特征矢量X={x1,…,xP};
对于业务感知样本中的各标记字段,其在“业务感知样本集”中均为数值型数据,根据预设的感知质差判决门限{S1,…,ST}按公式(2)分别转换成布尔型数据,即:
其中函数表示当条件c成立时返回1,否则返回0;则得到新的标记矢量Y={y1,…,yT};
这样即可得到训练样本集D,由特征集X和标记集Y组成,D={(xi,yi),i=1~M};
步骤S2:计算特征权值
对样本空间即训练样本集D,计算各特征权值;
步骤S3:构造训练样本的k近邻样本集
首先,按公式(4)对特征权值向量W进行归一化处理;
对训练样本集中的每个样本矢量xi,i=1,…,M,在训练样本集中寻找该样本矢量的k个近邻样本,其中样本距离的计算是在特征空间中采用特征权值加权的欧氏距离,即公式(5):
其中,xiu表示第i个样本的第u个特征值;
最后,按距离值升序排列,取前k个样本作为样本xi的k近邻样本集最终得到训练样本集的k近邻样本集;
步骤S4:计算先验概率和归一化频数矩阵
对每个标记项yj,j=1,…,T,按下面的公式(6)计算先验概率和
其中,Hj和分别表示未知样本具有和不具有标记项yj,而和则分别表示Hj和成立的先验概率,s为控制参数;
然后,按下面的公式(7)(8)计算归一化频数矩阵[fj[r]]k×q和
其中,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本个数,[·]表示取整;则fj[r]表示训练样本集中具有标记yj,并且近邻样本中具有标记yj的训练样本个数;而则表示训练样本集中不具有标记yj并且近邻样本中具有标记yj的训练样本个数;
步骤S5:构造未知样本的k近邻样本集
对未知样本按照步骤S3的方法在训练样本集中构造出未知样本的k近邻样本集
步骤S6:计算未知样本的同标记统计
对每一个标记项yj,j=1,…,T,按照公式(9)统计中具有该标记项的样本的数量{Cj},称为未知样本在其kx个最近邻样本集中的同标记统计:
步骤S7:计算未知样本的似然概率
按公式(10)、(11)计算似然概率和
表示当未知样本具有标记yj时,它的最近邻样本也具有标记yj的似然性;
步骤S8:估计未知样本的标记值
在前面各步骤计算结果的基础上,即可由下式(12)计算得到未知样本的标记集Y的估计值{y1,…,yT}:
也即未知样本的各业务KQI质量预测值。
2.根据权利要求1所述的一种基于特征选择的移动互联网业务质量预测方法,其特征在于:步骤S2计算特征权值的实现过程如下:
步骤S2a初始化特征权值向量
首先初始化特征权值向量W(A)=0.0,A=1,2,…,P;
步骤S2b选取样本并搜索其同标记k近邻
从样本空间D中随机选一个样本记为Ri,设其标记矢量为class(Ri)=h=(h1,h2,…,hT),根据特征空间的欧氏距离分别查找出与样本Ri具有t个相同标记的k个近邻样本,记为:
步骤S2c更新特征权值
按照公式(3)更新各特征权值:
其中,diff(A,I1,I2)是样本I1和I2关于特征A的距离,m是最大迭代次数,m<M;
步骤S2d输出特征权值
判断是否已达到最大迭代次数m,如果是则输出特征权值W,否则继续步骤S2b。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910320621.0/1.html,转载请声明来源钻瓜专利网。